>_ DevTrendsde

Sprache

Start

Sprachen

Bereiche

Frontend Backend Mobile DevOps AI / ML
Python

PDF Craft: Vergiss „tote" PDFs – Verwandle Scans in lebendigen Text!

5.803 Sterne

Kennt ihr die Situation, wenn ihr ein PDF-Dokument in den Händen haltet, oder schlimmer noch, ein ganzes Buch im Scan-Format? Der Text lässt sich nicht kopieren, die Suche funktioniert nicht, und das Lesen auf einem E-Reader ist purer Stress. Das ist ein Problem, mit dem wahrscheinlich jeder konfrontiert wurde, der jemals mit akademischer Literatur oder digitalisierten Alt dokumenten gearbeitet hat. Und genau dann tritt ein Held auf die Bühne, der fähig ist, diesen „toten" Dateien neues Leben einzuhauchen – ein Projekt namens PDF Craft.

Was ist das und wozu braucht man es?

PDF Craft ist ein leistungsstarkes Python-Tool, das für einen, aber sehr wichtigen Zweck entwickelt wurde: die Konvertierung von PDF-Dateien, insbesondere gescannter Bücher, in bequemere und bearbeitbare Formate wie Markdown und EPUB. Stellt euch vor, ihr habt ein altes, aber sehr wertvolles Buch als PDF, das jemand irgendwann einfach nur gescannt hat. Mit PDF Craft könnt ihr es in ein vollwertiges E-Book für euren Reader oder in eine Markdown-Datei verwandeln, mit der ihr wie mit normalem Text arbeiten könnt: suchen, kopieren, bearbeiten, umformatieren. Es ist einfach ein Segen für Studierende, Forscher, Entwickler und wirklich für jeden, der seine Zeit und seinen Komfort bei der Arbeit mit Informationen schätzt.

Kernfunktionen, die mich beeindruckt haben

Das Projekt „extrahiert" nicht einfach nur Text. Es macht es intelligent, unter Verwendung modernster Technologien.

Intelligente Erkennung und Strukturbewahrung

Im Kern von PDF Craft liegt DeepSeek OCR – eine leistungsstarke optische Zeichenerkennungstechnologie. Das ist nicht einfach nur OCR, die einen Zeichensatz ausgibt. DeepSeek OCR kann komplexe Inhalte erkennen: Tabellen, Formeln, Fußnoten, Bilder in Fußnoten. Es scannt nicht nur Text; es analysiert die Dokumentstruktur, trennt Hauptext von Kopf- und Fußzeilen und bewahrt die Integrität wichtiger Elemente.

Übrigens, erinnert ihr euch daran, wie Tabellen beim Kopieren aus PDFs zu einem Chaos werden und Formeln zu einer Ansammlung unverständlicher Symbole? PDF Craft löst dieses Problem, indem es versucht, diese Elemente so nah wie möglich am Original zu bewahren, sei es eine HTML-Tabelle oder eine MathML-Formel.

Lokal und unglaublich schnell

Eines der Haupt-Highlights der Version 1.0.0 und höher ist die vollständige Abkehr von großen Sprachmodellen (LLM) zur Textkorrektur. Das bedeutet, dass der gesamte Konvertierungsprozess lokal abläuft, ohne dass eure Daten irgendwohin gesendet werden und ohne Verzögerungen durch Netzwerkanfragen. Wenn ihr eine GPU habt, wird der Prozess dank Hardwarebeschleunigung blitzschnell sein. Vergesst lange Wartezeiten und Verbindungsabbrüche!

Obwohl, wenn ihr die LLM-Korrekturfunktion trotzdem noch benötigt, haben die Entwickler freundlicherweise die Option belassen, die alte v0.2.8 Version zu verwenden.

Ihr könnt die Geschwindigkeit und Qualität der Arbeit jetzt direkt ausprobieren, indem ihr die Online-Demo verwendet.

PDF Craft Online Demo

Ausgabeflexibilität: Markdown und EPUB mit automatischer Inhaltsverzeichnis-Erstellung

PDF Craft ermöglicht die Konvertierung von PDFs in zwei beliebte Formate: Markdown und EPUB.

  • Markdown: Ideal für diejenigen, die einfachen, strukturierten Text wollen, der sich leicht in ihre Notizen, Dokumentation oder Blogs integrieren lässt. Bilder werden in diesem Fall in einem separaten Ordner gespeichert.

    from pdf_craft import transform_markdown
    
    transform_markdown(
        pdf_path="input.pdf",
        markdown_path="output.md",
        markdown_assets_path="images",
    )
    

    PDF zu Markdown

  • EPUB: Eure Wahl, wenn ihr ein vollwertiges E-Book für komfortables Lesen auf einem E-Reader erstellen wollt. PDF Craft generiert automatisch ein Inhaltsverzeichnis, was die Navigation durch das Buch sehr bequem macht.

    from pdf_craft import transform_epub, BookMeta
    
    transform_epub(
        pdf_path="input.pdf",
        epub_path="output.epub",
        book_meta=BookMeta(
            title="Моя Отсканированная Книга",
            authors=["Автор 1", "Автор 2"],
        ),
    )
    

    PDF zu EPUB

Feinabstimmung für eure Bedürfnisse

Das Projekt bietet viele Parameter zur Feinabstimmung des Konvertierungsprozesses. Ihr könnt die OCR-Modellgröße wählen (von tiny bis gundam), einen Pfad für das Modell-Caching angeben, die Fußnotenverarbeitung aktivieren oder deaktivieren, die Tabellen-Rendering-Methode festlegen (TableRender.HTML oder TableRender.CLIPPING – nur ein Bild) und Formeln (LaTeXRender.MATHML, LaTeXRender.SVG oder LaTeXRender.CLIPPING). Das gibt euch volle Kontrolle über das Endergebnis.

Übrigens gibt es sogar einen Modus, in dem ihr Rendering-Fehler auf einzelnen PDF-Seiten ignorieren könnt, um den gesamten Prozess nicht zu unterbrechen (ignore_pdf_errors=True). Sehr nützlich für „kaputte" Dateien!

Wie es unter der Haube funktioniert

Wie bereits erwähnt, ist das Herzstück der OCR-Engine DeepSeek OCR. Die Modelle dafür werden beim ersten Start automatisch von Hugging Face heruntergeladen, aber ihr könnt sie auch vorab laden oder einen eigenen Cache-Pfad angeben, was besonders für Produktionsumgebungen oder Offline-Arbeit praktisch ist.

from pdf_craft import predownload_models

predownload_models(
    models_cache_path="./my_models", # Указываем свой каталог для кэша
)

Zum Parsen von PDF-Dateien verwendet pdf-craft Poppler (über die pdf2image-Bibliothek). Wenn Poppler nicht in eurem PATH ist, könnt ihr den Pfad dazu immer manuell angeben:

from pdf_craft import transform_markdown, DefaultPDFHandler

transform_markdown(
    pdf_path="input.pdf",
    markdown_path="output.md",
    pdf_handler=DefaultPDFHandler(poppler_path="/путь/к/poppler/bin"),
)

Es ist schön zu sehen, dass das Projekt unter MIT-Lizenz steht, was es sehr flexibel für die Verwendung in verschiedenen Projekten macht.

Praktische Anwendungen: Wo wird PDF Craft nützlich sein?

  • Digitalisierung eurer Bibliothek: Habt ihr Berge von gescannten Büchern oder alten Dokumenten, die ihr durchsuchbar und bearbeitbar machen wollt? PDF Craft ist euer bester Helfer.
  • Lesen auf jedem Gerät: Konvertiert langweilige PDFs in bequemes EPUB zum Lesen auf Kindle, PocketBook oder jedem anderen E-Reader. Das automatische Inhaltsverzeichnis macht die Navigation angenehm.
  • Datenextraktion zur Analyse: Ihr müsst schnell Text, Tabellen oder Formeln aus Dutzenden von wissenschaftlichen Artikeln extrahieren? Dieses Tool erledigt das für euch und bewahrt dabei die Struktur.
  • Erstellung von Lehrmaterialien: Konvertiert PDF-Lehrbücher in bearbeitbare Formate zur Erstellung von Vorlesungsnotizen oder zur Anpassung an eure Bedürfnisse.
  • Kombination mit anderen Tools: Entwickler erwähnen sogar die Möglichkeit der Verwendung zusammen mit dem epub-translator-Projekt, das EPUB-Bücher automatisch übersetzen kann, während das Format erhalten bleibt. Stellt euch vor: gescanntes Buch -> EPUB -> übersetztes zweisprachiges EPUB. Das ist doch purer Zauber!

Fazit: Lohnt es sich, es auszuprobieren?

Zweifellos, ja! Wenn ihr jemals vor dem Problem standet, mit gescannten PDFs zu arbeiten, kann PDF Craft zu eurer Rettung werden. Es ist nicht nur ein Konverter, sondern ein intelligentes Tool, das die Dokumentstruktur versteht und bestrebt ist, sie zu bewahren.

Es ist perfekt für:

  • Diejenigen, die viel mit akademischen Texten und gescannten Dokumenten arbeiten.
  • Entwickler, die PDF-Verarbeitungsworkflows automatisieren müssen.
  • E-Book-Enthusiasten, die ihre Papierbibliotheken in digitale Formate überführen wollen.

Übrigens, wenn ihr nichts installieren wollt, könnt ihr die Online-Demo ausprobieren. Es ist eine großartige Möglichkeit, die Fähigkeiten des Projekts schnell zu bewerten.

PDF Craft auf GitHub ausprobieren und gebt euren „toten" PDFs neues Leben!

Ähnliche Projekte