Avatar uživatele
Pokročilý

Jak změnit obrázek v PDF na text?

Mám návod k obsluze v pdf a většina textů je v něm jako obrázek, ne jako text. Abych mohl dokument online přeložit, musí být v něm text. Zkoušel jsem ocr online programy, ale neúspěšně.

Nejlepší odpověď

Avatar uživatele
Zlatý

tak předně, nejde o převod PDF na text ale rastrové grafiky která je zbytečně vložena do PDF na text :-) Takže v prvé řadě extrahuješ tu rastrovou grafiku z PDF ven ve formě pravděpodobně nějakých JPEG souborů. Teprve pak řešíš problém převodu těchto rastrů do textu pomocí OCR.

Zřejmě by tu grafiku bylo možné extrahovat i jednodušeji pomocí PDF prohlížeče a mnoha kliků pravým tlačítkem myši, ale já mohu doporučit (zvlášť pokud tam těch rastrů je třeba několik desítek) velmi jednoduchý trik přes LibreOffice. Můžeš PDF otevřít v programu LibreOffice DRAW a ihned jej uložit jako Kresbu ODG, klepneš na vzniklý odg soubor ve správci souborů pravým tlačítkem a vybereš "Rozbalit archiv zip" (on to totiž navzdory extenzi odg je vlastně archiv zip) a v něm už najdeš složku plnou těch jpeg rastrů v surové formě a pdf můžeš vyhodit do koše. Celkem praktický trik.

Pak už řešíš jen problém volby dostatečně spolehlivého OCR programu na převod do textu. To bohužel není vůbec snadné, stoprocentně spolehlivé to zřejmě nebude tak jako tak. Ty lepší programy budou umět použít slovníkové korekce k nápravě některých chyb při převodu ale i tak úspěšnost nebude stoprocentní a bude třeba stránku po stránce ještě zkontrolovat. OCR programy si běžně spletou kdejakou šmouhu s písmenem. Málo které umí zachovat původní formátování (tj. text převést jako text, grafiku ponechat jako grafiku a automaticky ji zapozicovat do toku textu, to vůbec není snadná a mezi těmito programy ani obvyklá dovednost, mnohé prostě jen převedou text a to ostatní kolem ignorují) ... s volbou OCR tedy bohužel neporadím. Znám jich hodně ale neznám ani jeden, který bych mohl doporučit s vědomím, že odvede skutečně dobrou práci a z těch komerčních (Abbyy FineReader, OmniPage Ultimate), ... to by ses nedoplatil.

 

Další odpovědi:

Avatar uživatele
Stříbrný

ge0rge má sice pravdu, že pdf je vektorová grafika a obrázek rastrová, ale Adobe Acrobatu je to jedno, umí rozpoznat text i z vektoru a pak jde upravit skoro všechno, i nascanovaný text (snad jen mimo fotky), tzn. pomocí něj vybereš text z obrázku a vložíš ho do texťáku (např. do wordu)...ale je to placený program...není zase tak nedostupný, třeba ho ve tvém okolí někdo má...


Avatar uživatele
Bronzový

Jako návod jsou někdy názorné obrázky lepší než text. Někteří „natvrdlejší“ mají z textem často problém.

 

Diskuze k otázce

Avatar uživatele
Stříbrný

Funna

oprava...umí rozeznat i text z rastru...z vektoru musí, když sám pracuje s vektorovou grafikou .-)

 

Zajímavé otázky v kategorii Počítače a internet

Přihlásit se

Položte otázku, odpovězte, zapojte se, …

začněte zde

Reklama

Kvalitní odpovědi v: Počítače a internet

Zlatý Bedy 1527
Zlatý ge0rge 1265
Zlatý Michal Kole 1199
Zlatý mosoj 1101
Zlatý Hlada 1027
Zlatý led 1005
Zlatý gecco 904
Zlatý www 828
Zlatý badisko 817
Zlatý cochee 743

Zobrazit celkový žebříček

Facebook

 

Váš požadavek se vyřizuje, počkejte prosím.