深度解析

PDF 簡史:這份文件格式為何勝出

koboshiCo-founder
·2 分鐘閱讀
PDF 簡史:這份文件格式為何勝出
概述

PDF 解決了一個簡單問題:文件在任何裝置上都該長得一樣。本文從 John Warnock 1991 年的 Camelot Project 追蹤到 ISO 32000,說明它為何擊敗競爭格式,並涵蓋可攜式文件格式的優點、缺點與未來。

1993 年,一家印刷店收到一片軟碟。裡面是一份 Microsoft Word 文件,夾帶了美工圖案與印刷店沒有的自訂字型。他們開啟檔案,邊界全亂了,項目符號變成方塊,商標漂到下一頁。隔天客戶來取件,拒絕付款。

這是當時的日常問題。PDF 出現之前的每種文件格式都預設接收端擁有與寄件端相同的軟體、字型與印表機。PDF 解決了這個問題:它依照實際印刷樣貌描述頁面,再把字型與圖片包進檔案內部。

PDF 到底是什麼

PDF 是 Portable Document Format 的縮寫。它的本質是一種容器檔案,儲存一或多個頁面的固定描述。每個頁面由一連串繪圖指令組成:移動到這裡、用這個字型畫出這個字符、把這張圖放在這個尺寸。最後在 LaserWriter、Windows PC 或傳真機上看起來都一樣。

PDF 檔案可以攜帶自己的字型、色彩描述檔、向量圖、點陣圖、中繼資料、註解、表單欄位、數位簽章與 JavaScript。它可以被線性化,讓網頁瀏覽器在整份檔案下載完成前就顯示第一頁。也可以加上標籤,讓螢幕閱讀器分辨標題與圖說。

這個格式不只是一張凍結的圖片。它是有結構的二進位檔案,採用與 PostScript 相同的成像模型,PostScript 是 Adobe 更早推出的頁面描述語言。

PDF 的起源

Adobe 共同創辦人 John Warnock 開啟了後來成為 PDF 的專案。1991 年,他撰寫了一份內部文件〈The Camelot Project〉,描述一套系統:任何文件都能在任何機器上可靠地檢視與列印。這個構想是為了解決文書處理器、試算表與桌上排版工具彼此不相容所造成的混亂。

Adobe 在 1993 年發布了第一份 PDF 規格與 Acrobat 軟體。早年進展緩慢。Acrobat Reader 起初並非免費,網路也還沒普及。Microsoft Office 直到 2007 年才支援匯出 PDF。有很長一段時間,PDF 主要只用於專業印刷與出版領域。

兩件事改變了它的發展軌跡。2008 年,Adobe 以 ISO 32000 開放標準釋出 PDF 規格。這代表任何人都能開發讀取或寫入 PDF 的軟體,無須付費給 Adobe。接著智慧型手機與電子郵件附件讓跨平台文件分享變成日常,而 PDF 早已是最穩妥的做法。

PDF 為何存在

在 PDF 之前,傳送文件等於傳送一連串前提。Word 檔預設接收者有對的字型、對的版本與對的印表機驅動程式。PostScript 檔預設接收者有 PostScript 解譯器。純文字檔則預設接收者不在乎版面。

PDF 消除了這些前提。檔案自備渲染所需的一切。1998 年在 Mac 上建立的 PDF,到了 2026 年仍在 Linux 機器上正確開啟。這份穩定性就是它的核心價值。

這個格式也解決了歸檔問題。紙本記錄會損壞。數位記錄壞得更快,因為軟體不斷改變。PDF/A 是 PDF 的嚴格子集,專為長期保存設計。它禁止依賴外部資源的功能,要求字型必須內嵌,並鎖定視覺外觀,避免未來軟體重新解讀版面。

PDF 現在用在哪裡

PDF 已成為所有需要跨裝置一致呈現的內容的預設容器:

  • 法律與政府申報:法院、稅務機關與合約流程都依賴固定版面文件。
  • 醫療記錄:PDF/A 是病歷與影像報告常見的歸檔格式。
  • 學術出版:多數期刊以 PDF 發行論文,因為方程式與圖表必須保持原樣。
  • 發票與收據:企業用範本產生 PDF,避免格式跑掉。
  • 表單:PDF 支援可填寫欄位、核取方塊與數位簽章。
  • 電子書:固定版面的書籍、教科書與漫畫常使用 PDF,而非可重排的 EPUB。
  • 頁面擷取:當你需要把 PDF 的某一頁轉成圖片時,PDF to JPGPDF to PNGPDF to WebP 這類工具可以在本機轉換,無須上傳檔案。

最後一點對隱私很重要。PDF 常包含合約、身分證件或財務紀錄。在瀏覽器內轉換能讓資料留在使用者裝置上。

其他文件格式比較

PDF 不是唯一的選擇。每種格式都針對不同需求最佳化。

格式優點缺點
DOCX / ODT易於編輯跨版本與字型時版面會變
HTML可隨任何螢幕重排列印版面難以預測
EPUB專為電子閱讀器設計可重排文字會破壞固定設計
PostScript精確控制印表機無法互動,沒有內建字型
XPSMicrosoft 的固定版面方案從未廣泛普及
DjVu掃描文件表現優異支援族群小,難以編輯
TIFF / PNG 圖片像素級精確無法搜尋,檔案很大
純文字通用且體積極小完全沒有格式

PDF 處於中間位置。它比可編輯格式更能保留視覺保真度,又比一整個資料夾的圖片更小、更有用。

PDF 為何成為業界標準

幾個因素讓 PDF 穩固下來。

第一,Adobe 免費釋出。Acrobat Reader 在 1994 年改為免費,Adobe 也積極推動預先安裝在電腦上,並與瀏覽器搭售。等競爭對手出現時,使用者已經知道怎麼開啟 PDF。

第二,作業系統接納了它。macOS 原生渲染 PDF。iOS 與 Android 開箱即可開啟 PDF。Windows 也加入了內建閱讀器。這個格式成了看不見的基礎建設。

第三,ISO 標準化消除了法律風險。企業可以在產品中內建 PDF 支援,無須洽談授權。

第四,PDF 解決了一個沒有競爭對手能如此完整解決的真實問題。Word 文件會跑版。HTML 頁面會重排。圖片是靜態的。PostScript 只能給印表機用。PDF 結合了 PostScript 的固定頁面與自包含檔案的可攜性。

PDF 的優缺點

面向優點限制
保真度在幾乎任何裝置上看起來一致難以適應小螢幕
可攜性自包含並內嵌字型二進位格式需要閱讀器
歸檔PDF/A 可保留視覺外觀數十年必須遵守嚴格規則才有效
安全性支援加密、塗黑與簽章密碼與權限可能被繞過
搜尋編碼正確時文字可選取掃描 PDF 需要 OCR 才能搜尋
編輯刻意設計得難以編輯適合定稿,不適合草稿

PDF 令人困擾的部分

PDF 對於完成的文件很出色,對其他事情則令人懊惱。

編輯 PDF 通常意味著購買軟體,或忍受難用的免費工具。文字擷取經常出問題,因為 PDF 依位置儲存字符,而非依閱讀順序。從雙欄版面複製一段文字,各行可能交錯。匯出表格時,各欄可能併成一行。

表單是另一個痛點。PDF 表單欄位看起來簡單,但不同閱讀器行為不一致。提交填好的 PDF 表單有時需要電子郵件用戶端,或是一套多年前就失效的伺服器腳本。

掃描 PDF 尤其糟糕。它們看起來像文件,其實是圖片。沒有 OCR 就無法搜尋、複製或縮放文字。當使用者把一張黑白發票以 600 dpi 彩色掃描時,檔案大小也會暴漲。

在行動裝置上閱讀很彆扭。PDF 頁面是固定矩形。放大文字後,每讀一行都要水平捲動。可重排格式更適合手機。

PDF 的未來

PDF 不會消失。ISO 32000-2,又稱 PDF 2.0,在 2017 年發布,為現代用途更新格式。它改進了 Unicode 處理、數位簽章與無障礙標籤。

更大的轉變是我們使用 PDF 的方式。雲端服務現在可以在瀏覽器內轉換、合併、分割與簽署 PDF。PDF 解析器驅動發票擷取、合約分析與自動資料輸入。機器學習系統也將讀取 PDF 納入文件流程的一部分。

無障礙性也在改善。加上標籤的 PDF、結構化標題與替代文字讓這個格式對螢幕閱讀器更友善。歐盟與美國的監管機構越來越要求政府文件使用無障礙 PDF。

這個格式很可能比許多創造它的應用程式活得更久。這就是 PDF 奇特的勝利:它如此完整地解決了一個 1990 年代的問題,以至於解決方案本身變得無形。

更多推薦閱讀