深度解析

PDF 简史:这份文档格式为何胜出

koboshiCo-founder
·2 分钟阅读
PDF 简史:这份文档格式为何胜出
概述

PDF 解决了一个简单问题:同一份文档在任何设备上都应看起来一样。本文从 John Warnock 1991 年的 Camelot Project 追溯到 ISO 32000,解释它为何击败竞争对手,并涵盖便携文档格式的优势、劣势与未来。

1993 年,一家打印店收到一张软盘。里面是 Microsoft Word 文档,嵌入了剪贴画和客户拥有但店家没有的自定义字体。他们打开后,页边距塌陷,项目符号变成方块,徽标漂到下一页。第二天客户来取件,拒绝付款。

这类问题每天都在发生。PDF 之前的每种文档格式都假设接收方拥有与发送方相同的软件、字体和打印机。PDF 改变了这一点:它把页面按照最终打印效果精确描述,再把字体和图片打包进文件本身。

PDF 到底是什么

PDF 全称 Portable Document Format(便携文档格式)。本质上,它是一个容器文件,保存一页或多页的固定描述。每一页由绘图指令流定义:移动到这里、用这种字体绘制这个字形、把这张图片放到这个尺寸。结果在 LaserWriter、Windows PC 或传真机上看起来都一样。

PDF 可以自带字体、色彩配置文件、矢量图、位图、元数据、批注、表单字段、数字签名,甚至 JavaScript。它可以线性化,让浏览器在整份文件下载完成前就显示第一页。它也可以加标签,让屏幕阅读器分辨标题和说明。

这个格式不是一张冻结的图片。它是一个结构化的二进制文件,基于与 PostScript 相同的成像模型,而 PostScript 是 Adobe 更早的页面描述语言。

PDF 的起源

Adobe 联合创始人 John Warnock 启动了后来成为 PDF 的项目。1991 年,他撰写了一份名为 "The Camelot Project" 的内部文档,描述了一个系统:任何文档都能在任何机器上可靠地查看和打印。这个想法旨在解决文字处理、电子表格和桌面出版工具互不兼容带来的混乱。

Adobe 在 1993 年发布了首份 PDF 规范和 Acrobat 软件。早期发展缓慢。Acrobat Reader 起初并非免费,互联网也几乎不存在。Microsoft Office 直到 2007 年才支持导出 PDF。很长一段时间里,PDF 主要用于专业印刷和出版领域。

两件事改变了它的轨迹。2008 年,Adobe 将 PDF 规范作为开放标准 ISO 32000 发布。这意味着任何人都可以编写读写 PDF 的软件,无需向 Adobe 付费。随后智能手机和邮件附件让跨平台文档共享变得日常化,而 PDF 已经是其中最稳妥的方式。

PDF 为何存在

在 PDF 之前,发送文档等于发送一份承诺。Word 文件承诺接收方有正确的字体、版本和打印机驱动。PostScript 文件承诺接收方有 PostScript 解释器。纯文本文件承诺接收方不在乎排版。

PDF 取消了这些承诺。文件自带渲染所需的一切。1998 年在 Mac 上创建的 PDF,2026 年在 Linux 机器上依然能正确打开。这种稳定性正是它的全部意义。

这个格式也解决了归档问题。纸质记录会朽坏。数字记录朽坏得更快,因为软件在不断变化。PDF/A 是 PDF 的严格子集,专为长期保存设计。它禁止依赖外部资源的特性,要求嵌入字体,并锁定视觉外观,使未来的软件无法重新解释版式。

PDF 如今的应用场景

PDF 已成为任何需要“到处看起来一样”的内容的默认容器:

  • 法律与政府文件:法院、税务机构和合同流程依赖固定版式文档。
  • 医疗记录:PDF/A 是患者档案和影像报告的常见归档格式。
  • 学术出版:多数期刊以 PDF 分发论文,因为公式和图表必须保持原样。
  • 发票与收据:企业基于模板生成 PDF,以防格式漂移。
  • 表单:PDF 支持可填写字段、复选框和数字签名。
  • 电子书:固定版式的书籍、教材和漫画常用 PDF,而非可重排的 EPUB。
  • 页面提取:当你需要从 PDF 中获取某一页作为图片时,PDF to JPGPDF to PNGPDF to WebP 等工具可在本地转换,无需上传文件。

最后这点对隐私很重要。PDF 常包含合同、身份证件或财务记录。在浏览器中转换可以把数据留在用户设备上。

其他文档格式对比

PDF 不是唯一选择。每种格式都在为不同目标优化。

格式优势劣势
DOCX / ODT易于编辑不同版本和字体下版式会变化
HTML可适配任意屏幕打印版式不可预测
EPUB为电子阅读器设计可重排文本会破坏固定设计
PostScript精确的打印控制无法交互,无内置字体
XPS微软的固定版式回应从未获得广泛采用
DjVu扫描文档表现出色支持面窄,编辑能力差
TIFF / PNG 图片像素级精确视觉无法搜索,文件巨大
纯文本通用且极小完全没有格式

PDF 处于中间位置。它比可编辑格式更能保持视觉保真,又比一堆图片更小、更有用。

PDF 为何成为行业标准

几个因素把 PDF 固定在了行业中。

第一,Adobe 免费提供了它。Acrobat Reader 于 1994 年免费,Adobe 大力推动预装到电脑和浏览器中。等竞争对手出现时,用户已经知道如何打开 PDF。

第二,操作系统接纳了它。macOS 原生渲染 PDF。iOS 和 Android 开箱即可打开 PDF。Windows 也添加了内置阅读器。格式变成了看不见的基础设施。

第三,ISO 标准化消除了法律风险。企业无需谈判授权即可把 PDF 支持集成进产品。

第四,PDF 真正解决了一个无人能完整解决的问题。Word 文档会漂移。HTML 页面会重排。图片是静态的。PostScript 只能用于打印机。PDF 把 PostScript 的固定页面与自包含文件的便携性结合了起来。

PDF 的优缺点

方面优势局限
保真度在几乎任何设备上看起来一致难以适配小屏幕
便携性自包含,字体已嵌入二进制格式需要阅读器
归档PDF/A 可保存视觉外观数十年必须符合严格规则才有效
安全支持加密、修订和签名密码和权限可能被绕过
搜索正确编码时文本可选中扫描版 PDF 需要 OCR 才能搜索
编辑设计上就难以编辑适合终稿,不适合草稿

PDF 不方便的地方

PDF 对成品文档很友好,对其他事情则很折磨。

编辑 PDF 通常意味着购买软件,或忍受笨拙的免费工具。文本提取经常失败,因为 PDF 按位置存储字符,而非阅读顺序。从双栏版面复制一段文字,行可能会交错。导出表格时,列可能 collapse 成一行。

表单是另一个痛点。PDF 表单字段看起来简单,但在不同阅读器中表现不一致。提交填写好的 PDF 表单有时仍依赖邮件客户端,或多年前就失效的服务器脚本。

扫描版 PDF 尤其糟糕。它们看起来像文档,实际上是图片。没有 OCR,就无法搜索、复制或缩放文字。如果用户以 600 dpi 彩色扫描一张黑白发票,文件体积还会暴增。

在手机上阅读 PDF 也很别扭。PDF 页面是固定矩形。放大文字后,每行都要横向滚动。可重排格式在手机上的表现更好。

PDF 的未来

PDF 不会消失。ISO 32000-2,又称 PDF 2.0,于 2017 年发布,为现代使用场景更新了格式。它改进了 Unicode 处理、数字签名和可访问性标签。

更大的变化在于使用方式。云服务现在可以在浏览器中转换、合并、拆分和签署 PDF。PDF 解析器支撑着发票提取、合同分析和自动化数据录入。机器学习系统把 PDF 作为文档处理流程的一部分来读取。

可访问性也在改善。带标签的 PDF、结构化标题和替代文本让屏幕阅读器不再那么吃力。欧盟和美国的监管机构越来越要求政府文件使用可访问 PDF。

这个格式可能会比许多创建它的应用程序活得更久。这就是 PDF 奇怪的胜利:它如此彻底地解决了一个 1990 年代的问题,以至于解决方案本身变得隐形。

更多推荐阅读