1993年、ある印刷所にフロッピーディスクでファイルが届いた。Microsoft Wordの文書で、埋め込まれたクリップアートと印刷所が持っていないカスタムフォントが入っていた。それを開くと、余白が崩れ、箇条書きの記号が四角になり、ロゴが次のページに飛んでしまった。翌日、客が仕上がりを見て支払いを拒否した。
これは日常茶飯事だった。PDF以前の文書形式は、受信者が送信者と同じソフトウェア、フォント、プリンタを持っていることを前提にしていた。PDFはその問題を、ページを印刷された通りに正確に記述し、フォントや画像をファイル自体にパッケージ化することで解決した。
PDFとは何か
PDFはPortable Document Formatの略だ。本質的には、1枚以上のページの固定された記述を保持するコンテナファイルだ。各ページは描画コマンドのストリームとして定義される。ここに移動して、このフォントでこの文字を描いて、この大きさでこの画像を配置する、といった具合だ。その結果はLaserWriterでもWindows PCでもFAX機でも同じように見える。
PDFファイルは独自のフォント、カラープロファイル、ベクター画像、ラスター画像、メタデータ、注釈、フォーム欄、電子署名、さらにはJavaScriptまで内包できる。線形化しておけば、ファイル全体がダウンロードし終わる前にWebブラウザが最初のページを表示できる。タグ付けすれば、スクリーンリーダーに対して見出しやキャプションを認識させられる。
この形式は単なる固定画像ではない。Adobeの以前のページ記述言語であるPostScriptと同じイメージングモデルを土台にした、構造化されたバイナリファイルだ。
PDFの起源
PDFになったプロジェクトは、Adobe共同創業者のJohn Warnockが始めた。1991年、彼は"The Camelot Project"という社内文書を書き、どの文書もどのマシン上でも確実に表示・印刷できるシステムを描いた。互換性のないワープロ、表計算、DTPツールの混沌を解決するのが狙いだった。
Adobeは1993年に最初のPDF仕様書とAcrobatソフトウェアをリリースした。しかし初期は伸び悩んだ。Acrobat Readerは最初は無料ではなく、Webもほとんど存在しなかった。Microsoft OfficeがPDFをエクスポートできるようになったのは2007年だ。長い間、PDFは主にプロの印刷・出版向けの形式だった。
転機をもたらしたのは2つの出来事だ。2008年、AdobeはPDF仕様をISO 32000の下でオープン標準として公開した。これにより、誰でもAdobeに支払うことなくPDFを読み書きするソフトウェアを作れるようになった。そしてスマートフォンとメールの添付ファイルがクロスプラットフォームな文書共有を当たり前にしたとき、PDFはすでに最も安全な手段だった。
PDFが存在する理由
PDFの前に文書を送るということは、約束を送ることだった。Wordファイルは、受信者が正しいフォントとバージョンとプリンタドライバを持っていることを約束していた。PostScriptファイルは、受信者がPostScriptインタプリタを持っていることを約束していた。プレーンテキストは、受信者がレイアウトを気にしていないことを約束していた。
PDFはそれらの約束を取り除いた。ファイルはレンダリングに必要なものをすべて持っている。1998年のMacで作成されたPDFも、2026年のLinuxマシンで正しく開ける。この安定性こそが、PDFの全目的だ。
この形式はアーカイブの問題も解決した。紙の記録は劣化する。デジタル記録はソフトウェアが変わるため、かえって早く劣化する。PDF/AはPDFの厳格なサブセットとして、長期保存のために設計された。外部リソースに依存する機能を禁止し、フォントの埋め込みを義務付け、将来のソフトウェアがレイアウトを再解釈できないように視覚的な外見を固定する。
現代におけるPDFの用途
PDFは、どこでも同じに見える必要があるもののデフォルトコンテナになった。
- 法務・行政書類: 裁判所、税務機関、契約ワークフローは固定レイアウトの文書に依存している。
- 医療記録: PDF/Aは患者ファイルや画像診断レポートの一般的なアーカイブ形式だ。
- 学術出版: 数式や図表を崩さず配布する必要があるため、ほとんどの学術誌がPDFで論文を配布している。
- 請求書・領収書: 企業はテンプレートからPDFを生成し、書式のずれを防いでいる。
- フォーム: PDFは入力可能な欄、チェックボックス、電子署名に対応している。
- 電子書籍: 固定レイアウトの書籍、教科書、漫画には、リフロー可能なEPUBではなくPDFが使われることが多い。
- ページの抽出: PDFのページを画像として必要とするとき、PDF to JPG、PDF to PNG、PDF to WebPのようなツールが、ファイルをアップロードせずにローカルで変換する。
最後の点はプライバシー上重要だ。PDFには契約書、身分証明書、金融記録などが含まれることが多い。ブラウザ内で変換すれば、データはユーザーの端末に留まる。
他の文書形式との比較
PDFだけが選択肢ではない。それぞれの形式は別の特性を最適化している。
| 形式 | 強み | 弱み |
|---|---|---|
| DOCX / ODT | 編集が簡単 | バージョンやフォントによってレイアウトが変わる |
| HTML | どの画面にもリフローする | 印刷レイアウトが予測しにくい |
| EPUB | Eリーダー向けに作られている | リフロー可能なテキストが固定デザインを崩す |
| PostScript | 正確な印刷制御 | 対話性がなく、フォントが内包されていない |
| XPS | Microsoftの固定レイアウト対抗馬 | 広く普及しなかった |
| DjVu | スキャン文書に優れる | ニッチな対応で編集が苦手 |
| TIFF / PNG画像 | ピクセル単位で正確 | 検索不可でファイルサイズが巨大 |
| プレーンテキスト | 普遍的で小さい | 書式がまったくない |
PDFは中間に位置する。編集可能な形式より視覚的忠実性を保ち、画像の束より小さく実用的だ。
PDFが業界標準になった理由
いくつかの要因がPDFの地位を固定した。
第一に、Adobeが無料で配布した。Acrobat Readerは1994年に無償化され、Adobeはコンピュータへのプリインストールやブラウザへの同梱を強く推し進めた。競合が現れた頃には、ユーザーはすでにPDFの開き方を知っていた。
第二に、OSがPDFを採用した。macOSはネイティブでPDFをレンダリングする。iOSとAndroidは標準でPDFを開ける。Windowsも組み込みリーダーを追加した。形式は目に見えないインフラになった。
第三に、ISO標準化により法的リスクが消えた。企業はライセンス交渉なしに製品にPDF対応を組み込めるようになった。
第四に、PDFは競合にないほど完全に実用的な問題を解決した。Word文書はずれる。HTMLページはリフローする。画像は静的だ。PostScriptはプリンタ専用だ。PDFはPostScriptの固定ページと、自己完結ファイルの移植性を組み合わせた。
PDFの長所と短所
| 観点 | 利点 | 制限 |
|---|---|---|
| 忠実性 | ほとんどの端末で同じに見える | 小さい画面に適応しにくい |
| 移植性 | フォントを内包した自己完結ファイル | バイナリ形式なので閲覧ツールが必要 |
| アーカイブ | PDF/Aは数十年にわたり視覚的外見を保存 | 有効にするには厳格なルールに従う必要がある |
| セキュリティ | 暗号化、塗りつぶし、署名に対応 | パスワードや権限は回避されることがある |
| 検索 | 適切にエンコーディングされていればテキストを選択できる | スキャンPDFはOCRが必要 |
| 編集 | 意図的に編集しにくい | 最終稿には向くが、下書きには向かない |
PDFの面倒なところ
PDFは完成した文書には優れているが、それ以外のことでは歯がゆい。
PDFを編集するには、多くの場合、有料ソフトを買うか、使いにくい無料ツールを我慢する必要がある。テキスト抽出はしばしば崩れる。PDFは文字を読み順ではなく位置で保持しているからだ。2段組みの段落をコピーすると、行が交互に入り混じる。表をエクスポートすると、列が1列に潰れる。
フォームもまた面倒だ。PDFのフォーム欄は見た目は単純だが、リーダー間で挙動が一定ではない。入力済みPDFフォームの送信には、メールクライアントか、何年前に動かなくなったサーバースクリプトが必要なこともある。
スキャンPDFは特に悪い。見た目は文書だが実体は画像だ。OCRなしでは検索もコピーも文字サイズ変更もできない。ユーザーが白黒の請求書をカラーで600 dpiでスキャンすると、ファイルサイズが爆発することもある。
モバイルでの閲覧も気まずい。PDFのページは固定された四角形だ。テキストを読むために拡大すると、1行ごとに横スクロールが必要になる。リフロー可能な形式の方がスマートフォンに向いている。
PDFの未来
PDFは消えない。ISO 32000-2、通称PDF 2.0は2017年に公開され、現代の利用に合わせて形式を更新した。Unicode処理、電子署名、アクセシビリティタグ付けが改善されている。
より大きな変化は、PDFの使い方にある。クラウドサービスはブラウザ内でPDFの変換、結合、分割、署名を行う。PDFパーサーは請求書の抽出、契約書の分析、自動データ入力を支えている。機械学習システムも、文書パイプラインの一部としてPDFを読んでいる。
アクセシビリティも改善している。タグ付きPDF、構造化された見出し、代替テキストによって、スクリーンリーダーに対する敵対性が減っている。EUや米国の規制当局は、政府文書のアクセシビリティ対応PDFをますます求めている。
この形式は、おそらくPDFを作る多くのアプリケーションより長く生き残るだろう。それがPDFの奇妙な勝利だ。1990年代の問題をあまりにも完全に解決したので、解決策そのものが目に見えなくなってしまった。



