Glyph & Cog XPDFText

Glyph&Cog Logo

XPDFText konvertiert PDF-Dokumente in reinen Text mit ASCCII, 8-bit Latin1, UTF-8 Unicode und anderen Standard CJK Kodierungen und kann auch für eigene Kodierungen konfiguriert werden. Erhältlich ist XPDFText als Shared Library für Unix Plaftformen, als DLL oder als COM Komponente für Windows.
 
 

 
 
 
Weitere Informationen

 

Das PDF-Dokument, aus dem der Text extrahiert werden soll, kann dabei entweder nur im Speicher oder auch auf der Festplatte gespeichert sein. Demzufolge kann der Text wiederum direkt im Speicher oder auf der Festplatte abgelegt werden.
 

 

XPDFText kann auf verschiedene Weise verwendet werden:

  • Komplette PDF-Dokumente oder einzelne Seiten konvertieren, wobei
    • das Layout oder
    • die Absatzreihenfolge erhalten bleibt 
  • Text aus einem festgelegten Bereich der Seite extrahieren
    • hilfreich bei Formularen 
  • Seiten in Wörterlisten konvertieren - für jedes Wort können Sie:
    • Schriftart und -grösse 
    • Textfarbe 
    • Position des Wortes auf der Seite und 
    • und Zeichenabstand ermitteln

 

Der extrahierte Text kann auf unterschiedliche Weise kodiert werden:

  • UTF-8 Unicode
  • Latin1 (8-bit ISO-8859-1)
  • 7-bit ASCII
  • ISO-2022-CN (simplified Chinese)
  • EUC-CN (simplified Chinese)
  • Big5 (traditional Chinese)
  • KOI8-R (Cyrillic)
  • ISO-8859-7 (Greek)
  • ISO-2022-JP (Japanese)
  • EUC-JP (Japanese)
  • Shift-JIS (Japanese)
  • KSX1001 (Korean)
  • TIS-620 (Thai)
  • ISO-8859-9 (Turkish)

 

Die XpdfText Library enthält auch alle Funktionen der XPDFInfo Library.
 
 

XPDFInfo ist einfach einzusetzen  

 

PDFHandle pdf;
char *buf;
int length;

pdfLoadFile(&pdf, "MyFile.pdf");

// convert to a text file on disk...
pdfConvertToTextFile(pdf, 1, 5, "MyFile.txt");

// ... or convert in memory
buf = pdfConvertToTextString(pdf, 1, 5, &length);


 
Unterstützte Plattformen:

  • Windows: DLL
  • Windows: COM Komponente (aus Visual Basic, Delphi , ...)
  • Linux: shared library
  • Solaris: shared library
  • für andere Plattformen ist portierbarer C++ Quellcode erhältlich


Für OEM-Kunden und ambitionierte Entwickler steht auch der vollständige Quellcode des XPDF-Projekts zur Verfügung. Bei Interesse wenden Sie sich einfach an sales@pdfstore.de.
 
 





  Copyright by DataPerform GmbH