Historie úprav

Avatar uživatele

Odpověděl/a – 14.leden 9:22

tak předně, nejde o převod PDF na text ale rastrové grafiky která je zbytečně vložena do PDF na text 🙂 Takže v prvé řadě extrahuješ tu rastrovou grafiku z PDF ven ve formě pravděpodobně nějakých JPEG souborů. Teprve pak řešíš problém převodu těchto rastrů do textu pomocí OCR.

Avatar uživatele

Odpověděl/a – 14.leden 9:57

tak předně, nejde o převod PDF na text ale rastrové grafiky která je zbytečně vložena do PDF na text 🙂 Takže v prvé řadě extrahuješ tu rastrovou grafiku z PDF ven ve formě pravděpodobně nějakých JPEG souborů. Teprve pak řešíš problém převodu těchto rastrů do textu pomocí OCR.

Zřejmě by tu grafiku bylo možné extrahovat i jednodušeji pomocí PDF prohlížeče a mnoha kliků pravým tlačítkem myši, ale já mohu doporučit (zvlášť pokud tam těch rastrů je třeba několik desítek) velmi jednoduchý trik přes LibreOffice. Můžeš PDF otevřít v programu LibreOffice DRAW a ihned jej uložit jako Kresbu ODG, klepneš na vzniklý odg soubor ve správci souborů pravým tlačítkem a vybereš „Rozbalit archiv zip“ (on to totiž navzdory extenzi odg je vlastně archiv zip) a v něm už najdeš složku plnou těch jpeg rastrů v surové formě a pdf můžeš vyhodit do koše. Celkem praktický trik.

Pak už řešíš jen problém volby dostatečně spolehlivého OCR programu na převod do textu. To bohužel není vůbec snadné, stoprocentně spolehlivé to zřejmě nebude tak jako tak. Ty lepší programy budou umět použít slovníkové korekce k nápravě některých chyb při převodu ale i tak úspěšnost nebude stoprocentní a bude třeba stránku po stránce ještě zkontrolovat. OCR programy si běžně spletou kdejakou šmouhu s písmenem. Málo které umí zachovat původní formátování (tj. text převést jako text, grafiku ponechat jako grafiku a automaticky ji zapozicovat do toku textu, to vůbec není snadná a mezi těmito programy ani obvyklá dovednost, mnohé prostě jen převedou text a to ostatní kolem ignorují) … s volbou OCR tedy bohužel neporadím. Znám jich hodně ale neznám ani jeden, který bych mohl doporučit s vědomím, že odvede skutečně dobrou práci a z těch komerčních (Abbyy FineReader, OmniPage Ultimate), … to by ses nedoplatil.