För att svara på frågan "har skannat en text som bild i pdf, och sedan vill konvertera till text", så kallas det OCR. I förråden för 10.04 finns
gocr,
ocrad och
tesseract. De är alla terminalprogram.
De klarar inte pdf utan vill ha bilder som input. Det går att extrahera bilder från pdf om det skulle behövas, men det verkar vara en omväg. Skulle tro att det är enklare om du
skannar till en bild direkt, och inte till pdf.
När jag testade funkade
gocr halvbra och
ocrad ganska dåligt. Det gäller att ha bra upplösning (många punkter per tum) i originalbilden och gärna bra skärpa. Jag testade inte
tesseract för jag lyckades inte komma på hur man använder den. Säg gärna till om du kommer på det.
Exempel om du har en bildfil. Med gocr:
Kod: Markera allt
anytopnm < skannat.gif | gocr -d 0 > skannat.txt
Med ocrad:
Kod: Markera allt
anytopnm < skannat.gif | ocrad > skannat.txt
Båda programmen har växlar för att finjustera processen. Se deras man-sidor.
(anytopnm för att konvertera gif (eller vadsomhelst) till pnm, för det är det bildformat gocr och ocrad vill ha. Finns i paketet
netpbm.)
(Kan du ändra rubrik på tråden?)
EDIT:
Har nu snabb-testat
ocropus. Den vill ha png-fil som input och ger html som output.
Kod: Markera allt
ocroscript recognize skannat.png > skannat.htm
Troligen använder den tesseract i bakgrunden. Fick inte åäö. Annars ungefär lika halvbra som gocr. (Alla exempel kan nog bli bättre med väl valda växlar för att justera processen.)
EDIT:
Har nu snabb-testat
http://www.free-ocr.com/ (tack hnarn) och resultatet var riktigt bra. Inga "l" som blev "1" eller tvärt om, vad jag kan se.
EDIT:
Har nu snabb-testat
cuneiform 0.7.0 och resultatet blev ganska dåligt. Svårt hitta dokumentation som inte är på ryska.
Kod: Markera allt
cuneiform -l swe -o skannat.txt skannat.jpg