गहन विश्लेषण

PDF की संक्षिप्त इतिहास: यह दस्तावेज़ प्रारूप क्यों जीता

koboshiCo-founder
·9 मिनट पढ़ें
PDF की संक्षिप्त इतिहास: यह दस्तावेज़ प्रारूप क्यों जीता
सारांश

PDF ने एक साधारण समस्या हल की: एक दस्तावेज़ हर डिवाइस पर एक जैसा दिखना चाहिए। यह पोस्ट इस प्रारूप को John Warnock के 1991 के Camelot Project से ISO 32000 तक ट्रेस करती है, बताती है कि इसने प्रतिद्वंद्वी प्रारूपों को क्यों हराया, और Portable Document Format की ताकतें, कमजोरियाँ और भविष्य को कवर करती है।

1993 में एक प्रिंट शॉप को फ्लॉपी डिस्क पर एक फाइल मिलती है। यह Microsoft Word दस्तावेज़ है, जिसमें एम्बेडेड क्लिप आर्ट और एक कस्टम फ़ॉन्ट है जो शॉप के पास नहीं है। वे इसे खोलते हैं। मार्जिन बिखर जाते हैं, बुलेट चौकों में बदल जाते हैं, और लोगो अगले पेज पर तैर जाता है। अगले दिन ग्राहक काम उठाने आता है और भुगतान से मना कर देता है।

यह एक रोज़मर्रा की समस्या थी। हर PDF से पहले का दस्तावेज़ प्रारूप यह मानता था कि प्राप्तकर्ता के पास प्रेषक के समान सॉफ्टवेयर, फ़ॉन्ट और प्रिंटर हैं। PDF ने इसे ठीक किया पेज का सटीक वर्णन करके जैसे यह प्रिंट होगा, और फिर फ़ॉन्ट और इमेज को खुद फाइल के अंदर पैक करके।

PDF वास्तव में क्या है

PDF का मतलब Portable Document Format है। इसका केंद्र, यह एक कंटेनर फाइल है जो एक या अधिक पेजों की स्थिर जानकारी संग्रहीत करती है। हर पेज को ड्रॉइंग कमांड्स की स्ट्रीम के रूप में परिभाषित किया जाता है: यहाँ जाओ, इस फ़ॉन्ट में यह ग्लिफ़ ड्रॉ करो, इस आकार पर यह इमेज रखो। नतीजा LaserWriter, Windows PC, या फैक्स मशीन पर एक जैसा दिखता है।

PDF फाइल अपने साथ फ़ॉन्ट, कलर प्रोफाइल, वेक्टर ग्राफिक्स, रास्टर इमेज, मेटाडेटा, एनोटेशन, फॉर्म फील्ड, डिजिटल हस्ताक्षर और JavaScript ले जा सकती है। इसे linearized किया जा सकता है ताकि वेब ब्राउज़र पूरी फाइल डाउनलोड होने से पहले पहला पेज दिखा सके। इसे tagged किया जा सकता है ताकि स्क्रीन रीडर्स जान सकें कि क्या शीर्षक है और क्या कैप्शन।

यह प्रारूप सिर्फ एक जमी हुई इमेज नहीं है। यह एक संरचित बाइनरी फाइल है जो PostScript जैसे ही इमेजिंग मॉडल पर बनी है, जो Adobe की पिछली page-description भाषा थी।

PDF की उत्पत्ति

Adobe के सह-संस्थापक John Warnock ने वह परियोजना शुरू की जो बाद में PDF बनी। 1991 में उन्होंने "The Camelot Project" नामक एक आंतरिक पेपर लिखा, जिसमें एक ऐसे सिस्टम का वर्णन था जिसमें कोई भी दस्तावेज़ किसी भी मशीन पर विश्वसनीय रूप से देखा और प्रिंट किया जा सके। विचार असंगत वर्ड प्रोसेसर, स्प्रेडशीट और डेस्कटॉप पब्लिशिंग टूल्स की अव्यवस्था को हल करना था।

Adobe ने पहली PDF specification और Acrobat सॉफ्टवेयर 1993 में रिलीज़ किए। शुरुआती साल धीमे रहे। Acrobat Reader शुरुआत में मुफ्त नहीं था, और वेब लगभग अस्तित्व में नहीं था। Microsoft Office ने 2007 तक PDF एक्सपोर्ट नहीं किया। लंबे समय तक, PDF ज़्यादातर पेशेवर प्रिंटिंग और पब्लिशिंग प्रारूप रहा।

दो घटनाओं ने इसकी दिशा बदली। 2008 में, Adobe ने PDF specification को ISO 32000 के तहत एक खुले मानक के रूप में रिलीज़ किया। इसका मतलब था कि कोई भी Adobe को बिना कुछ भुगतान किए PDF पढ़ने या लिखने का सॉफ्टवेयर बना सकता है। फिर स्मार्टफोन और ईमेल अटैचमेंट ने क्रॉस-प्लेटफॉर्म दस्तावेज़ साझाकरण सामान्य बना दिया, और PDF पहले से ही ऐसा करने का सबसे सुरक्षित तरीका था।

PDF क्यों मौजूद है

PDF से पहले, दस्तावेज़ भेजने का मतलब था एक वादा भेजना। Word फाइल वादा करती थी कि प्राप्तकर्ता के पास सही फ़ॉन्ट, सही संस्करण और सही प्रिंटर ड्राइवर है। PostScript फाइल वादा करती थी कि प्राप्तकर्ता के पास PostScript interpreter है। सादा टेक्स्ट फाइल वादा करती थी कि प्राप्तकर्ता को लेआउट से कोई मतलब नहीं।

PDF ने उन वादों को हटा दिया। फाइल अपने साथ रेंडर करने के लिए जो कुछ भी चाहिए वह ले जाती है। 1998 में Mac पर बनी PDF 2026 में Linux मशीन पर भी सही खुलती है। यह स्थिरता ही पूरा मुद्दा है।

इस प्रारूप ने संग्रहण की समस्या भी हल की। कागज़ के रिकॉर्ड क्षयित होते हैं। डिजिटल रिकॉर्ड और भी तेज़ी से बर्बाद होते हैं क्योंकि सॉफ्टवेयर बदलते हैं। PDF/A, PDF का एक सख्त सबसेट, दीर्घकालिक संरक्षण के लिए डिज़ाइन किया गया था। यह उन सुविधाओं को मना करता है जो बाहरी संसाधनों पर निर्भर होती हैं, फ़ॉन्ट एम्बेड करना अनिवार्य बनाता है, और दृश्य उपस्थिति को ताला लगा देता है ताकि भविष्य का सॉफ्टवेयर लेआउट को फिर से व्याख्या न कर सके।

आज PDF का उपयोग कहाँ होता है

PDF उस चीज़ के लिए डिफ़ॉल्ट कंटेनर बन गया है जो हर जगह एक जैसी दिखनी चाहिए:

  • कानूनी और सरकारी दाखिले: अदालतें, कर एजेंसियाँ और अनुबंध कार्यप्रवाह fixed-layout दस्तावेज़ों पर निर्भर करते हैं।
  • मेडिकल रिकॉर्ड: PDF/A रोगी फाइलों और इमेजिंग रिपोर्टों के लिए एक सामान्य संग्रह प्रारूप है।
  • शैक्षणिक प्रकाशन: अधिकांश जर्नल पेपर PDF में वितरित करते हैं क्योंकि समीकरण और आंकड़े अछूते रहने चाहिए।
  • चालान और रसीदें: व्यवसाय टेम्प्लेट से PDF जनरेट करते हैं ताकि फॉर्मेटिंग बिखरे नहीं।
  • फॉर्म: PDF भरने योग्य फील्ड, चेकबॉक्स और डिजिटल हस्ताक्षरों का समर्थन करता है।
  • ई-बुक्स: fixed-layout किताबें, पाठ्यपुस्तकें और कॉमिक्स अक्सर reflowable EPUB के बजाय PDF का उपयोग करते हैं।
  • पेज निकालना: जब आपको PDF में से किसी पेज को इमेज के रूप में चाहिए, तो PDF to JPG, PDF to PNG, और PDF to WebP जैसे टूल फाइल अपलोड किए बिना लोकल रूप से कनवर्ट करते हैं।

यह आखिरी बात गोपनीयता के लिए मायने रखती है। PDF में अक्सर अनुबंध, ID या वित्तीय रिकॉर्ड होते हैं। उन्हें ब्राउज़र में कनवर्ट करने से डेटा उपयोगकर्ता के डिवाइस पर ही रहता है।

अन्य दस्तावेज़ प्रारूप और तुलना

PDF एकमात्र विकल्प नहीं है। हर प्रारूप किसी अलग चीज़ के लिए अनुकूलित है।

प्रारूपताकतकमज़ोरी
DOCX / ODTसंपादन आसानसंस्करण और फ़ॉन्ट के बीच लेआउट बदलता है
HTMLकिसी भी स्क्रीन पर reflow होता हैप्रिंट लेआउट अनिश्चित है
EPUBई-रीडर के लिए बनाreflowable टेक्स्ट fixed डिज़ाइन तोड़ देता है
PostScriptप्रिंटर का सटीक नियंत्रणइंटरैक्टिव नहीं, built-in फ़ॉन्ट नहीं
XPSMicrosoft का fixed-layout उत्तरकभी व्यापक अपनाभाव नहीं मिला
DjVuस्कैन किए दस्तावेज़ों के लिए उत्कृष्टniche समर्थन, खराब संपादन
TIFF / PNG imagespixel-perfect दृश्यखोज योग्य नहीं, बड़ी फाइल आकार
Plain textसार्वभौमिक और छोटाकोई फॉर्मेटिंग नहीं

PDF बीच में है। यह संपादन योग्य प्रारूपों की तुलना में दृश्य सच्चाई बेहतर संरक्षित करता है और इमेजों के फोल्डर की तुलना में छोटा और अधिक उपयोगी रहता है।

PDF उद्योग मानक क्यों बना

कई कारकों ने PDF को अपनी जगह पर जमाया।

पहला, Adobe ने इसे मुफ्त में दिया। Acrobat Reader 1994 में मुफ्त हो गया, और Adobe ने इसे कंप्यूटर पर पहले से इंस्टॉल और ब्राउज़र के साथ बंडल करवाने के लिए जोर लगाया। जब तक प्रतिस्पर्धी आए, उपयोगकर्ता पहले से ही PDF खोलना जानते थे।

दूसरा, ऑपरेटिंग सिस्टम्स ने इसे अपनाया। macOS PDF को देशी रूप से रेंडर करता है। iOS और Android बॉक्स से बाहर PDF खोल सकते हैं। Windows ने एक built-in reader जोड़ा। प्रारूप अदृश्य बुनियादी ढांचा बन गया।

तीसरा, ISO मानकीकरण ने कानूनी जोखिम हटा दिया। कंपनियाँ लाइसेंस पर बातचीत किए बिना अपने उत्पादों में PDF समर्थन बना सकती थीं।

चौथा, PDF ने एक असली समस्या हल की जिसे किसी प्रतिद्वंद्वी ने इतनी पूरी तरह नहीं हल किया। Word दस्तावेज़ बदलते हैं। HTML पेज reflow होते हैं। इमेज स्थिर हैं। PostScript केवल प्रिंटर के लिए है। PDF ने PostScript के fixed पेज को self-contained फाइल की portability के साथ जोड़ा।

PDF के फायदे और नुकसान

पहलूफायदासीमा
Fidelityलगभग किसी भी डिवाइस पर एक जैसा दिखता हैछोटी स्क्रीन पर ढालना मुश्किल
Portabilityएम्बेडेड फ़ॉन्ट के साथ self-containedबाइनरी प्रारूप के लिए reader चाहिए
ArchivingPDF/A दशकों तक दृश्य उपस्थिति संरक्षित करता हैवैध होने के लिए सख्त नियमों का पालन करना होगा
Securityएन्क्रिप्शन, redaction और हस्ताक्षरों का समर्थनपासवर्ड और अनुमतियाँ bypass की जा सकती हैं
Searchसही एन्कोडिंग होने पर टेक्स्ट चयनित होता हैस्कैन किए PDF खोजने के लिए OCR चाहते हैं
Editingडिज़ाइन के अनुसार संपादन मुश्किलअंतिम प्रतियों के लिए अच्छा, ड्राफ्ट के लिए बुरा

PDF की परेशान करने वाली बातें

PDF अंतिम दस्तावेज़ों के लिए बेहतरीन है और बाकी सबके लिए परेशान करने वाला।

PDF संपादित करना आमतौर पर सॉफ्टवेयर खरीदने या एक भारी-भरकम मुफ्त टूल स्वीकार करने का मतलब है। टेक्स्ट निष्कर्षण अक्सर टूट जाता है क्योंकि PDF अक्षरों को पढ़ने के क्रम से नहीं, बल्कि स्थिति के अनुसार संग्रहीत करता है। दो-कॉलम लेआउट से एक अनुच्छेद कॉपी करें और पंक्तियाँ आपस में घुल-मिल सकती हैं। एक तालिका एक्सपोर्ट करें और कॉलम एक में समा सकते हैं।

फॉर्म एक और दर्द हैं। PDF form fields आसान दिखते हैं लेकिन विभिन्न readers में असंगत तरीके से व्यवहार करते हैं। भरा हुआ PDF form submit करने के लिए कभी-कभी ईमेल क्लाइंट या सर्वर स्क्रिप्ट चाहिए जो सालों पहले काम करना बंद कर चुकी हो।

स्कैन किए PDF विशेष रूप से खराब हैं। वे दस्तावेज़ जैसे दिखते हैं लेकिन असल में इमेज हैं। OCR के बिना, आप टेक्स्ट खोज, कॉपी या आकार नहीं बदल सकते। जब उपयोगकर्ता काले-सफेद चालान के लिए रंग में 600 dpi पर स्कैन करते हैं तो फाइल आकार भी फूल सकता है।

मोबाइल पर पढ़ना अजीब है। PDF पेज एक fixed आयत है। टेक्स्ट पढ़ने के लिए zoom करें और आपको हर पंक्ति के लिए क्षैतिज स्क्रॉल करना पड़ता है। Reflowable प्रारूप फोन को बेहतर संभालते हैं।

PDF का भविष्य

PDF जाने वाला नहीं है। ISO 32000-2, जिसे PDF 2.0 भी कहा जाता है, 2017 में प्रकाशित हुआ और यह प्रारूप को आधुनिक उपयोग के लिए अपडेट करता है। यह unicode हैंडलिंग, डिजिटल हस्ताक्षर और accessibility tagging में सुधार करता है।

बड़ा बदलाव यह है कि हम PDF का उपयोग कैसे करते हैं। Cloud services अब ब्राउज़र के अंदर PDF को कनवर्ट, merge, split और sign करते हैं। PDF parsers चालान निष्कर्षण, अनुबंध विश्लेषण और स्वचालित डेटा प्रविष्टि को संभालते हैं। मशीन लर्निंग सिस्टम PDF को document pipelines के हिस्से के रूप में पढ़ते हैं।

Accessibility भी बेहतर हो रही है। Tagged PDF, संरचित headings और वैकल्पिक टेक्स्ट इस प्रारूप को स्क्रीन रीडर्स के लिए कम hostile बनाते हैं। EU और US में नियामक सरकारी दस्तावेज़ों के लिए सुलभ PDF की आवश्यकता तेजी से बढ़ा रहे हैं।

यह प्रारूप शायद उन कई एप्लिकेशंस से ज़्यादा समय तक जीवित रहेगा जो इसे बनाते हैं। यह PDF की अजीब जीत है: इसने 1990 के दशक की समस्या इतनी पूरी तरह हल की कि समाधान अदृश्य हो गया।

और ब्लॉग पोस्ट्स पढ़ें