Глубокие погружения

Краткая история PDF: почему этот формат документов победил

koboshiCo-founder
·7 мин чтения
Краткая история PDF: почему этот формат документов победил
Кратко

PDF решил простую проблему: документ должен выглядеть одинаково на любом устройстве. В этой статье мы проследим путь формата от проекта Camelot Джона Уорнока 1991 года до ISO 32000, объясним, почему он обошел конкурентов, и разберем сильные стороны, слабые места и будущее Portable Document Format.

В 1993 году типография получает файл на дискете. Это документ Microsoft Word со встроенными картинками и нестандартным шрифтом, которого у типографии нет. Они открывают его. Поля съезжают, маркеры превращаются в квадраты, а логотип уходит на следующую страницу. На следующий день клиент забирает заказ и отказывается платить.

Такая проблема возникала каждый день. Любой формат документов до PDF исходил из того, что у получателя тот же софт, шрифты и принтер, что и у отправителя. PDF исправил это, описывая страницу точно так, как она должна напечататься, и упаковывая шрифты и изображения прямо внутрь файла.

Что такое PDF на самом деле

PDF расшифровывается как Portable Document Format. По сути, это контейнерный файл, который хранит фиксированное описание одной или нескольких страниц. Каждая страница задается потоком команд рисования: переместиться сюда, нарисовать этот глиф этим шрифтом, поместить это изображение в таком размере. Результат выглядит одинаково на LaserWriter, компьютере с Windows или факсимильном аппарате.

PDF-файл может содержать собственные шрифты, цветовые профили, векторную графику, растровые изображения, метаданные, аннотации, поля форм, цифровые подписи и JavaScript. Его можно линеаризовать, чтобы веб-браузер показывал первую страницу еще до завершения загрузки всего файла. Его можно разметить, чтобы программы чтения с экрана отличали заголовок от подписи к рисунку.

Этот формат - не просто замороженное изображение. Это структурированный бинарный файл, построенный на той же модели отображения, что и PostScript, более ранний язык описания страниц Adobe.

Откуда взялся PDF

Джон Уорнок, соучредитель Adobe, запустил проект, который стал PDF. В 1991 году он написал внутренний документ под названием "The Camelot Project", описывающий систему, в которой любой документ можно было бы надежно просматривать и печатать на любой машине. Идея состояла в том, чтобы разобраться с хаосом несовместимых текстовых процессоров, электронных таблиц и инструментов настольных издательских систем.

Adobe выпустила первую спецификацию PDF и программное обеспечение Acrobat в 1993 году. Первые годы шли медленно. Acrobat Reader поначалу был платным, а интернет едва существовал. Microsoft Office научилась экспортировать в PDF только в 2007 году. Долгое время PDF в основном использовался в профессиональной печати и издательском деле.

Два события изменили его траекторию. В 2008 году Adobe передала спецификацию PDF в качестве открытого стандарта ISO 32000. Это означало, что любой мог написать ПО для чтения или создания PDF без выплат Adobe. Затем смартфоны и вложения в электронной почте сделали кроссплатформенный обмен документами обычным делом, а PDF к тому моменту уже был самым надежным способом это делать.

Зачем нужен PDF

До PDF отправка документа означала отправку обещания. Файл Word обещал, что у получателя есть нужные шрифты, нужная версия и нужный драйвер принтера. Файл PostScript обещал, что у получателя есть интерпретатор PostScript. Простой текстовый файл обещал, что получателю не важна разметка.

PDF убрал эти обещания. Файл несет с собой все, что нужно для отрисовки. PDF, созданный на Mac в 1998 году, до сих пор корректно открывается на Linux-машине в 2026 году. Эта стабильность и есть вся суть.

Этот формат также решил проблему архивирования. Бумажные записи разрушаются. Цифровые записи портятся быстрее, потому что меняется программное обеспечение. PDF/A, строгое подмножество PDF, было разработано для долгосрочного хранения. Он запрещает функции, зависящие от внешних ресурсов, требует встраивания шрифтов и фиксирует внешний вид, чтобы будущее ПО не могло переинтерпретировать разметку.

Где сегодня используется PDF

PDF стал контейнером по умолчанию для всего, что должно выглядеть одинаково везде:

  • Юридические и государственные документы: суды, налоговые органы и договорные процессы опираются на документы с фиксированной разметкой.
  • Медицинские записи: PDF/A - распространенный архивный формат для карт пациентов и отчетов по визуализации.
  • Академическое издательство: большинство журналов распространяют статьи в PDF, потому что уравнения и иллюстрации должны оставаться неизменными.
  • Счета и квитанции: компании генерируют PDF из шаблонов, чтобы форматирование не съезжало.
  • Формы: PDF поддерживает заполняемые поля, флажки и цифровые подписи.
  • Электронные книги: книги, учебники и комиксы с фиксированной разметкой часто используют PDF вместо перекомпонуемого EPUB.
  • Извлечение страниц: когда нужно получить страницу из PDF как изображение, инструменты вроде PDF to JPG, PDF to PNG и PDF to WebP конвертируют локально, без загрузки файла на сервер.

Последний пункт важен для приватности. PDF часто содержат договоры, удостоверения личности или финансовые записи. Конвертация в браузере сохраняет данные на устройстве пользователя.

Другие форматы документов и их сравнение с PDF

PDF - не единственный вариант. Каждый формат оптимизирован под свои задачи.

ФорматСильная сторонаСлабая сторона
DOCX / ODTПросто редактироватьРазметка съезжает между версиями и шрифтами
HTMLПодстраивается под любой экранПечатная разметка непредсказуема
EPUBСоздан для электронных книгПерекомпонуемый текст ломает фиксированный дизайн
PostScriptТочное управление принтеромНе интерактивен, нет встроенных шрифтов
XPSОтвет Microsoft на фиксированную разметкуТак и не получил широкого распространения
DjVuОтлично для отсканированных документовНишевой формат, плохое редактирование
Изображения TIFF / PNGПиксельно точное отображениеНельзя искать текст, большой размер файлов
Простой текстУниверсален и малНикакого форматирования

PDF занимает середину. Он сохраняет визуальную точность лучше, чем редактируемые форматы, и остается компактнее и удобнее, чем папка с изображениями.

Почему PDF стал отраслевым стандартом

Несколько факторов закрепили PDF на своем месте.

Во-первых, Adobe раздавала его бесплатно. Acrobat Reader стал бесплатным в 1994 году, и Adobe активно добивалась его предустановки на компьютеры и включения в комплекты браузеров. К тому времени, когда появились конкуренты, пользователи уже знали, как открыть PDF.

Во-вторых, операционные системы приняли его. macOS рендерит PDF нативно. iOS и Android открывают PDF из коробки. Windows добавила встроенную читалку. Формат стал незаметной инфраструктурой.

В-третьих, стандартизация ISO убрала юридические риски. Компании могли встроить поддержку PDF в свои продукты без согласования лицензии.

В-четвертых, PDF решил реальную проблему, которую ни один конкурент не решил так полно. Документы Word плывут. HTML-страницы перекомпоновываются. Изображения статичны. PostScript работает только с принтерами. PDF объединил фиксированную страницу PostScript с переносимостью самодостаточного файла.

Плюсы и минусы PDF

АспектПреимуществоОграничение
Точность отображенияВыглядит одинаково почти на любом устройствеСложно адаптировать под маленькие экраны
ПереносимостьСамодостаточен, шрифты встроеныБинарный формат требует программу для чтения
АрхивированиеPDF/A сохраняет внешний вид на десятилетияНужно строго соблюдать правила, чтобы быть валидным
БезопасностьПоддерживает шифрование, редокцию и подписиПароли и разрешения можно обойти
ПоискТекст можно выделить, если он правильно закодированОтсканированные PDF нуждаются в OCR для поиска
РедактированиеПо замыслу сложно редактироватьХорош для финальных копий, плох для черновиков

Неприятные стороны PDF

PDF отлично подходит для готовых документов и раздражает во всем остальном.

Редактирование PDF обычно означает покупку ПО или использование неуклюжего бесплатного инструмента. Извлечение текста часто ломается, потому что PDF хранит символы по позиции, а не по порядку чтения. Скопируй абзац из двухколоночной верстки, и строки могут перемешаться. Экспортируй таблицу, и столбцы сольются в один.

Формы - еще одна головная боль. Поля PDF-форм выглядят просто, но ведут себя по-разному в разных читалках. Отправка заполненной PDF-формы иногда требует почтового клиента или серверного скрипта, который перестал работать много лет назад.

Отсканированные PDF особенно плохи. Они выглядят как документы, но на самом деле являются изображениями. Без OCR нельзя искать, копировать или изменять размер текста. Размер файлов также может раздуться, когда пользователи сканируют цветным режимом 600 dpi черно-белый счет.

Чтение на мобильных устройствах неудобно. Страница PDF - это фиксированный прямоугольник. Увеличь текст, чтобы прочитать, и придется прокручивать каждую строку по горизонтали. Перекомпонуемые форматы лучше справляются с телефонами.

Будущее PDF

PDF никуда не денется. ISO 32000-2, также известный как PDF 2.0, был опубликован в 2017 году и обновил формат для современного использования. Он улучшает обработку Unicode, цифровые подписи и разметку доступности.

Более серьезный сдвиг произошел в том, как мы используем PDF. Облачные сервисы теперь конвертируют, объединяют, разделяют и подписывают PDF прямо в браузере. PDF-парсеры обеспечивают извлечение данных из счетов, анализ договоров и автоматический ввод данных. Системы машинного обучения читают PDF как часть документных пайплайнов.

Доступность тоже улучшается. Размеченные PDF, структурированные заголовки и альтернативный текст делают формат менее враждебным для программ чтения с экрана. Регуляторы в ЕС и США все чаще требуют доступных PDF для государственных документов.

Скорее всего, этот формат переживет многие приложения, которые его создают. В этом странная победа PDF: он настолько полно решил проблему 1990-х, что само решение стало незаметным.

Ещё посты в блоге