您的位置: 首页> Python

使用 Python 压缩 PDF 文件的大小

匿名上传

发布时间:2026-04-16 09:30:01

PDF 文件因其优秀的兼容性和格式保持能力而被广泛使用，但随着内容的增加，特别是包含大量高清图片时，文件体积往往会变得非常庞大。过大的 PDF 文件不仅占用存储空间，还会导致邮件发送困难、网页加载缓慢以及传输效率低下等问题。

本文将介绍如何使用 Python 和 Spire.PDF 库来压缩 PDF 文件，通过优化文档结构和压缩图像数据，在保持可接受的质量前提下显著减小文件体积。

为什么需要压缩 PDF 文件？

压缩 PDF 文件大小在实际工作中有着重要的应用价值：

提高传输效率：较小的文件可以更快地通过电子邮件发送或网络传输
节省存储空间：减少本地存储和云端备份所需的磁盘空间
加快加载速度：网页嵌入的 PDF 文件越小，用户打开速度越快
满足系统限制：许多平台对上传文件大小有限制，压缩可以帮助符合要求
优化用户体验：移动设备上查看小文件更加流畅，消耗更少的流量

通过 Python 自动化压缩过程，可以批量处理大量 PDF 文件，显著提升工作效率。

环境准备

首先，需要安装 Spire.PDF for Python 库。可以通过 pip 命令轻松完成安装：

pip install Spire.PDF

安装完成后，即可在 Python 脚本中导入该库并使用其提供的压缩功能。

PDF 压缩的核心方法

综合压缩策略

Spire.PDF 提供了多层次的压缩机制，包括文档级别的压缩设置和页面级别的图像压缩。通过结合使用这些方法，可以实现最佳的压缩效果。

以下代码展示了如何对 PDF 文档进行全方位压缩：

from spire.pdf.common import *
from spire.pdf import *

# 定义输入和输出文件路径
inputFile = "/input/示例文档.pdf"
outputFile = "/output/压缩.pdf"

# 加载 PDF 文档
doc = PdfDocument()
doc.LoadFromFile(inputFile)

# 禁用增量更新，确保压缩生效
doc.FileInfo.IncrementalUpdate = False

# 设置压缩级别为最佳压缩
doc.CompressionLevel = PdfCompressionLevel.Best

# 再次确认禁用增量更新
doc.FileInfo.IncrementalUpdate = False

# 遍历所有页面，压缩其中的图像
imageHelper = PdfImageHelper()
for i in range(doc.Pages.Count):
    page = doc.Pages[i]
    if page is not None:
        # 获取页面中的所有图像信息
        imagesInfo = imageHelper.GetImagesInfo(page)
        if len(imagesInfo) > 0:
            # 尝试压缩每个图像
            for j in range(len(imagesInfo)):
                imagesInfo[j].TryCompressImage()

# 保存压缩后的文档
doc.SaveToFile(outputFile)
doc.Close()

这段代码展示了 PDF 压缩的三个关键步骤：

文档级压缩设置：
- 将 CompressionLevel 设置为 PdfCompressionLevel.Best，启用最高级别的压缩算法
- 禁用 IncrementalUpdate（增量更新），确保压缩后的内容完全重写文件而非追加
图像压缩处理：
- 使用 PdfImageHelper 工具类获取每页中的图像信息
- 调用 TryCompressImage() 方法尝试压缩每个图像，该方法会智能判断是否可以安全压缩
保存优化结果：
- 使用 SaveToFile 保存压缩后的文档，由于禁用了增量更新，生成的文件将只包含压缩后的内容

这种综合压缩策略可以同时优化文本内容和图像数据，通常能够将文件大小减少 50% 到 80%，具体效果取决于原始文档的内容构成。

压缩原理详解

理解 PDF 压缩的工作原理有助于更好地应用这些技术：

文档级压缩

文档级压缩主要作用于 PDF 的内部结构，包括：

对象流压缩：将多个小的 PDF 对象合并到对象流中，减少冗余数据
交叉引用表优化：重新组织文件的索引结构，提高读取效率
元数据清理：移除不必要的文档属性和历史记录

通过设置 CompressionLevel 为 Best，Spire.PDF 会自动应用所有这些优化技术。

图像压缩

图像通常是 PDF 文件中占用空间最大的部分。TryCompressImage() 方法会执行以下操作：

降低图像分辨率：将高分辨率图像调整为适合屏幕显示或打印的分辨率
应用 JPEG 压缩：对有损压缩适用的图像采用 JPEG 算法
颜色空间转换：将 RGB 图像转换为更紧凑的颜色表示方式
移除冗余数据：清除图像中的元数据和 EXIF 信息

这种方法的优势在于它是智能压缩——只有在可以安全降低质量的情况下才会执行压缩，避免过度处理导致视觉质量明显下降。

实际应用

PDF 压缩功能在实际工作中有广泛的应用场景：

批量压缩文档库

当需要处理大量 PDF 文件时，可以编写批处理函数来自动化压缩过程。以下是一个实用的批量压缩示例：

from spire.pdf.common import *
from spire.pdf import *
import os

def CompressPdfFolder(input_folder: str, output_folder: str):
    """压缩文件夹中的所有 PDF 文件"""
    
    # 如果输出文件夹不存在则创建
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # 统计信息
    total_original = 0
    total_compressed = 0
    
    # 遍历输入文件夹中的所有文件
    for filename in os.listdir(input_folder):
        if filename.endswith(".pdf"):
            # 构建完整的文件路径
            input_path = os.path.join(input_folder, filename)
            output_filename = filename
            output_path = os.path.join(output_folder, output_filename)
            
            # 获取原始文件大小
            original_size = os.path.getsize(input_path)
            total_original += original_size
            
            # 执行压缩
            doc = PdfDocument()
            doc.LoadFromFile(input_path)
            doc.FileInfo.IncrementalUpdate = False
            doc.CompressionLevel = PdfCompressionLevel.Best
            
            # 压缩图像
            imageHelper = PdfImageHelper()
            for i in range(doc.Pages.Count):
                page = doc.Pages[i]
                if page is not None:
                    imagesInfo = imageHelper.GetImagesInfo(page)
                    if len(imagesInfo) > 0:
                        for j in range(len(imagesInfo)):
                            imagesInfo[j].TryCompressImage()
            
            doc.SaveToFile(output_path)
            doc.Close()
            
            # 获取压缩后文件大小
            compressed_size = os.path.getsize(output_path)
            total_compressed += compressed_size
            
            # 计算压缩率
            ratio = (1 - compressed_size / original_size) * 100
            print(f"已压缩: {filename}")
            print(f"  原始大小: {original_size / 1024:.2f} KB")
            print(f"  压缩后: {compressed_size / 1024:.2f} KB")
            print(f"  压缩率: {ratio:.1f}%n")
    
    # 输出总体统计
    overall_ratio = (1 - total_compressed / total_original) * 100
    print("=" * 50)
    print(f"总计:")
    print(f"  原始总大小: {total_original / 1024 / 1024:.2f} MB")
    print(f"  压缩后总大小: {total_compressed / 1024 / 1024:.2f} MB")
    print(f"  整体压缩率: {overall_ratio:.1f}%")

# 使用示例
input_folder = "./PDF文档"
output_folder = "./压缩后PDF"
CompressPdfFolder(input_folder, output_folder)