PDFLib pCOS - Informationen aus PDF's abfragen

PDFlib pCOS

 

Das PDF Information Retrieval Tool PDFlib pCOS eröffnet dem Anwender Zugriff auf alle PDF-Metadaten, Hypertext oder jede andere Information eines PDF-Dokuments (außerhalb des eigentlichen Seiteninhalts), ohne dass hierfür eigene Parser-Programmierung erforderlich wäre (pCOS steht für PDFlib Comprehensive Object Syntax). PDFlib pCOS greift nicht auf den eigentlichen Inhalt (Text) der PDF-Datei zu – hierzu wird PDFlib TET verwendet. 
 

Mit PDFlib pCOS können wichtige Zusatzinformationen aus einem PDF-Dokument ausgelesen werden:

  • Allgemeine Angaben: Linearisierungsstatus, Tagged PDF, Verschlüsselung und Zugriffsrechte, Seitenzahl, Fonts
  • Dokumentinfo-Einträge und XMP-Metadaten
  • Fonts mit Namen, Einbettungsstatus, usw.
  • Verweisziele (URLs) und Koordinaten von Weblinks Formularfelder: Feldnamen, Inhalte, Position, usw.
  • Seitengröße, CropBox, Seitenrotation
  • PDF/X-Status
  • Dateianhänge auflisten oder extrahieren
  • Ebenen (layers) benennen
  • Detailinformationen zu Anmerkungen Kommentare mit Namen des Bearbeiters auflisten Detailinformationen zu digitalen Signaturen: Namen der Signaturfelder; signiert/unsigniert; Name des Signierers; Datum und Grund der Signatur
  • ICC-Profile aus PDF/X- und PDF/A-Dateien extrahieren
  • Eigenschaften der PDFlib-Blöcke ausgeben
  • JavaScript auf Dokument-, Seiten-, Annotation- und Feldebene

 

Weitere Informationen finden Sie im Datenblatt (PDF, ca. 137 kB).
 


 
 
Weitere Informationen


 
Anwendungsfälle
 
Die praktische Arbeit mit PDF bietet viele Einsatzmöglichkeiten für PDFlib pCOS, das Tool eignet sich aber auch zur Fehlersuche in problematischen PDF-Dateien. Typische Anwendungsszenarien:

  • Überprüfung eingehender Dokumente auf bestimmte Eigenschaften (Fonts, JavaScript, etc.)
  • Inhaltsverzeichnis nachträglich erstellen durch Extrahieren aller Lesezeichen und der zugehörigen Seitennummer
  • Problemfälle in einer großen Anzahl existierender PDF-Dateien finden
  • Eigenschaftslisten von PDF-Dateien für Dokumentmanagementsysteme erstellen
  • Qualitätskontrolle druckfertiger PDF-Dateien
  • Dokumentenretrieval- und Repository-Workflows
  • Erkenntnisse über Details von PDF-Datenstrukturen gewinnen


PDF-Eingabeformate
PDFlib pCOS verarbeitet alle gängigen Varianten von PDF:

  • alle PDF-Versionen bis PDF 1.6 (Acrobat 7)
  • verschlüsseltes PDF mit 40- und 128-Bit-Verschlüsselung
  • ausgefeiltes Sicherheitsmodell: auch ohne Passwort können einzelne Informationen abgefragt werden, solange dies nicht den Intentionen des Autors widerspricht


Ausgabeformate
PDFlib pCOS kann mit nur einem Aufruf viele Dateien verarbeiten; damit können sehr einfach und auch bei einem großen Bestand an PDF-Dateien Übersichten über Dokumentinfo-Einträge, Seitenformate, Schriftarten oder andere Eigenschaften erstellt werden. Durch die Tabellen-Ausgabe erwächst daraus ein mächtiges PDF-Verwaltungstool.
 
PDFlib pCOS erzeugt Ausgabe für diverse Verwendungszwecke:

  • einfacher Text
  • Tabellarische Ausgabe zur einfachen Weiterverarbeitung in Kalkulations- oder Datenbank-Programmen
  • Binärdaten (ICC-Profile, Dateianhänge)
  • Unicode-Text in den Formaten UTF-8 und UTF-16

Der Zugriff auf die eigentlichen Textinhalte erfordert unser Produkt PDFlib TET (Text Extraction Toolkit).

 


pCOS-Kommandozeilentool und pCOS-Bibliothek
PDFlib pCOS wird in einem Programmpaket als Software-Bibliothek (Komponente) für diverse Entwicklungsumgebungen und als Kommandozeilen-Tool für Batch-Prozesse geliefert. Beide Ausführungen bieten die gleiche Funktionalität und pCOS-Pfadsyntax, eignen sich aber für unterschiedliche Einsatzbereiche. 

 
Besonderheiten der pCOS-Funktionsbibliothek

  • Integration in Desktop- oder Server-Anwendungen
  • Anbindung an C, C++, COM, .NET und Java
  • Dokumente direkt aus dem Hauptpeicher lesen (in C)
  • Programmierbeispiele im Lieferumfang enthalten


Besonderheiten der pCOS-Kommandozeile

  • Erfordert keine Programmierung und eignet sich daher ideal zur Batch-Verarbeitung von PDF-Dokumenten
  • Einfache Abfrage typischer PDF-Elemente wie Lesezeichen, Anmerkungen, Formularfelder, Metadaten, etc.
  • Erweiterter Modus zur Abfrage komplexer Objekte
  • Ausgabe der Informationen in benutzerdefiniertem Format oder als CSV zum Import in Tabellenkalkulation oder Datenbank
  • Rekursion zur Erfassung verschachtelter PDF-Objekte (z.B. Dictionaries oder Arrays)


pCOS Pfade
einfache Syntax für PDF-Objekte
PDFlib pCOS bietet eine einfache Pfadsyntax, mit der beliebige Objekte innerhalb einer PDF-Datei angesprochen werden können. Die pCOS-Syntax bildet die PDF-Objektstruktur ab, bietet aber praktische Kurzformen zum Zugriff auf häufig benötigte Objekte, etwa Seiten, Schriften, Lesezeichen, Formularfelder, usw. Ohne sich um komplexe PDF-Baumstrukturen kümmern zu müssen, können Objekte direkt mit einfachen pCOS-Pseudo-Objekten angesprochen werden. Diese sind in der pCOS-Dokumentation ausführlich beschrieben. Die pCOS-Pfadsyntax muss bei Anwendung der pCOS-Programmbibliothek benutzt werden, wird aber auch vom pCOS-Kommandozeilen-Tool unterstützt.

 


Programmierung und Leistungsfähigkeit
PDFlib pCOS ist hoch portabel, extrem schnell, robust und auch für Multithread-Serverumgebungen geeignet. Der Bibliothekskern wurde in C für höchste Leistung bei geringstem Overhead geschrieben. Zusätzliche Sprachanbindungen für gängige Entwicklungsumgebungen sind verfügbar.


Weitere Informationen finden Sie im Datenblatt (PDF, ca. 137 kB).
 


PDFlib Produkte laufen auf einer Vielzahl von unterschiedlichen Plattformen. Unterstützt werden Mac, Windows und alle führenden Unix -Plattformen sowie Sun Solaris.
 
 





  Copyright by DataPerform GmbH