深掘り

PDFの短い歴史: なぜこの文書形式が勝ち残ったか

koboshiCo-founder
·2 分で読めます
PDFの短い歴史: なぜこの文書形式が勝ち残ったか
要約

PDFが解決したのは単純な問題だった。文書はどの端末でも同じように見えるべきだ。この記事では、1991年のJohn WarnockのCamelot ProjectからISO 32000に至るまでの流れをたどり、PDFが競合形式に勝った理由、そしてPortable Document Formatの強みと弱み、今後を解説する。

1993年、ある印刷所にフロッピーディスクでファイルが届いた。Microsoft Wordの文書で、埋め込まれたクリップアートと印刷所が持っていないカスタムフォントが入っていた。それを開くと、余白が崩れ、箇条書きの記号が四角になり、ロゴが次のページに飛んでしまった。翌日、客が仕上がりを見て支払いを拒否した。

これは日常茶飯事だった。PDF以前の文書形式は、受信者が送信者と同じソフトウェア、フォント、プリンタを持っていることを前提にしていた。PDFはその問題を、ページを印刷された通りに正確に記述し、フォントや画像をファイル自体にパッケージ化することで解決した。

PDFとは何か

PDFはPortable Document Formatの略だ。本質的には、1枚以上のページの固定された記述を保持するコンテナファイルだ。各ページは描画コマンドのストリームとして定義される。ここに移動して、このフォントでこの文字を描いて、この大きさでこの画像を配置する、といった具合だ。その結果はLaserWriterでもWindows PCでもFAX機でも同じように見える。

PDFファイルは独自のフォント、カラープロファイル、ベクター画像、ラスター画像、メタデータ、注釈、フォーム欄、電子署名、さらにはJavaScriptまで内包できる。線形化しておけば、ファイル全体がダウンロードし終わる前にWebブラウザが最初のページを表示できる。タグ付けすれば、スクリーンリーダーに対して見出しやキャプションを認識させられる。

この形式は単なる固定画像ではない。Adobeの以前のページ記述言語であるPostScriptと同じイメージングモデルを土台にした、構造化されたバイナリファイルだ。

PDFの起源

PDFになったプロジェクトは、Adobe共同創業者のJohn Warnockが始めた。1991年、彼は"The Camelot Project"という社内文書を書き、どの文書もどのマシン上でも確実に表示・印刷できるシステムを描いた。互換性のないワープロ、表計算、DTPツールの混沌を解決するのが狙いだった。

Adobeは1993年に最初のPDF仕様書とAcrobatソフトウェアをリリースした。しかし初期は伸び悩んだ。Acrobat Readerは最初は無料ではなく、Webもほとんど存在しなかった。Microsoft OfficeがPDFをエクスポートできるようになったのは2007年だ。長い間、PDFは主にプロの印刷・出版向けの形式だった。

転機をもたらしたのは2つの出来事だ。2008年、AdobeはPDF仕様をISO 32000の下でオープン標準として公開した。これにより、誰でもAdobeに支払うことなくPDFを読み書きするソフトウェアを作れるようになった。そしてスマートフォンとメールの添付ファイルがクロスプラットフォームな文書共有を当たり前にしたとき、PDFはすでに最も安全な手段だった。

PDFが存在する理由

PDFの前に文書を送るということは、約束を送ることだった。Wordファイルは、受信者が正しいフォントとバージョンとプリンタドライバを持っていることを約束していた。PostScriptファイルは、受信者がPostScriptインタプリタを持っていることを約束していた。プレーンテキストは、受信者がレイアウトを気にしていないことを約束していた。

PDFはそれらの約束を取り除いた。ファイルはレンダリングに必要なものをすべて持っている。1998年のMacで作成されたPDFも、2026年のLinuxマシンで正しく開ける。この安定性こそが、PDFの全目的だ。

この形式はアーカイブの問題も解決した。紙の記録は劣化する。デジタル記録はソフトウェアが変わるため、かえって早く劣化する。PDF/AはPDFの厳格なサブセットとして、長期保存のために設計された。外部リソースに依存する機能を禁止し、フォントの埋め込みを義務付け、将来のソフトウェアがレイアウトを再解釈できないように視覚的な外見を固定する。

現代におけるPDFの用途

PDFは、どこでも同じに見える必要があるもののデフォルトコンテナになった。

  • 法務・行政書類: 裁判所、税務機関、契約ワークフローは固定レイアウトの文書に依存している。
  • 医療記録: PDF/Aは患者ファイルや画像診断レポートの一般的なアーカイブ形式だ。
  • 学術出版: 数式や図表を崩さず配布する必要があるため、ほとんどの学術誌がPDFで論文を配布している。
  • 請求書・領収書: 企業はテンプレートからPDFを生成し、書式のずれを防いでいる。
  • フォーム: PDFは入力可能な欄、チェックボックス、電子署名に対応している。
  • 電子書籍: 固定レイアウトの書籍、教科書、漫画には、リフロー可能なEPUBではなくPDFが使われることが多い。
  • ページの抽出: PDFのページを画像として必要とするとき、PDF to JPGPDF to PNGPDF to WebPのようなツールが、ファイルをアップロードせずにローカルで変換する。

最後の点はプライバシー上重要だ。PDFには契約書、身分証明書、金融記録などが含まれることが多い。ブラウザ内で変換すれば、データはユーザーの端末に留まる。

他の文書形式との比較

PDFだけが選択肢ではない。それぞれの形式は別の特性を最適化している。

形式強み弱み
DOCX / ODT編集が簡単バージョンやフォントによってレイアウトが変わる
HTMLどの画面にもリフローする印刷レイアウトが予測しにくい
EPUBEリーダー向けに作られているリフロー可能なテキストが固定デザインを崩す
PostScript正確な印刷制御対話性がなく、フォントが内包されていない
XPSMicrosoftの固定レイアウト対抗馬広く普及しなかった
DjVuスキャン文書に優れるニッチな対応で編集が苦手
TIFF / PNG画像ピクセル単位で正確検索不可でファイルサイズが巨大
プレーンテキスト普遍的で小さい書式がまったくない

PDFは中間に位置する。編集可能な形式より視覚的忠実性を保ち、画像の束より小さく実用的だ。

PDFが業界標準になった理由

いくつかの要因がPDFの地位を固定した。

第一に、Adobeが無料で配布した。Acrobat Readerは1994年に無償化され、Adobeはコンピュータへのプリインストールやブラウザへの同梱を強く推し進めた。競合が現れた頃には、ユーザーはすでにPDFの開き方を知っていた。

第二に、OSがPDFを採用した。macOSはネイティブでPDFをレンダリングする。iOSとAndroidは標準でPDFを開ける。Windowsも組み込みリーダーを追加した。形式は目に見えないインフラになった。

第三に、ISO標準化により法的リスクが消えた。企業はライセンス交渉なしに製品にPDF対応を組み込めるようになった。

第四に、PDFは競合にないほど完全に実用的な問題を解決した。Word文書はずれる。HTMLページはリフローする。画像は静的だ。PostScriptはプリンタ専用だ。PDFはPostScriptの固定ページと、自己完結ファイルの移植性を組み合わせた。

PDFの長所と短所

観点利点制限
忠実性ほとんどの端末で同じに見える小さい画面に適応しにくい
移植性フォントを内包した自己完結ファイルバイナリ形式なので閲覧ツールが必要
アーカイブPDF/Aは数十年にわたり視覚的外見を保存有効にするには厳格なルールに従う必要がある
セキュリティ暗号化、塗りつぶし、署名に対応パスワードや権限は回避されることがある
検索適切にエンコーディングされていればテキストを選択できるスキャンPDFはOCRが必要
編集意図的に編集しにくい最終稿には向くが、下書きには向かない

PDFの面倒なところ

PDFは完成した文書には優れているが、それ以外のことでは歯がゆい。

PDFを編集するには、多くの場合、有料ソフトを買うか、使いにくい無料ツールを我慢する必要がある。テキスト抽出はしばしば崩れる。PDFは文字を読み順ではなく位置で保持しているからだ。2段組みの段落をコピーすると、行が交互に入り混じる。表をエクスポートすると、列が1列に潰れる。

フォームもまた面倒だ。PDFのフォーム欄は見た目は単純だが、リーダー間で挙動が一定ではない。入力済みPDFフォームの送信には、メールクライアントか、何年前に動かなくなったサーバースクリプトが必要なこともある。

スキャンPDFは特に悪い。見た目は文書だが実体は画像だ。OCRなしでは検索もコピーも文字サイズ変更もできない。ユーザーが白黒の請求書をカラーで600 dpiでスキャンすると、ファイルサイズが爆発することもある。

モバイルでの閲覧も気まずい。PDFのページは固定された四角形だ。テキストを読むために拡大すると、1行ごとに横スクロールが必要になる。リフロー可能な形式の方がスマートフォンに向いている。

PDFの未来

PDFは消えない。ISO 32000-2、通称PDF 2.0は2017年に公開され、現代の利用に合わせて形式を更新した。Unicode処理、電子署名、アクセシビリティタグ付けが改善されている。

より大きな変化は、PDFの使い方にある。クラウドサービスはブラウザ内でPDFの変換、結合、分割、署名を行う。PDFパーサーは請求書の抽出、契約書の分析、自動データ入力を支えている。機械学習システムも、文書パイプラインの一部としてPDFを読んでいる。

アクセシビリティも改善している。タグ付きPDF、構造化された見出し、代替テキストによって、スクリーンリーダーに対する敵対性が減っている。EUや米国の規制当局は、政府文書のアクセシビリティ対応PDFをますます求めている。

この形式は、おそらくPDFを作る多くのアプリケーションより長く生き残るだろう。それがPDFの奇妙な勝利だ。1990年代の問題をあまりにも完全に解決したので、解決策そのものが目に見えなくなってしまった。

その他のおすすめ記事