Ubuntu Sverige

Finns det något program som kan konvertera pdf till text? T. ex odt?

Kopiera från PDF -> Klistra in i Writer?

Förlåt jag var lite oklar. Jag menar en situation då du har skannat en text som bild i pdf, och sedan vill konvertera till text. Det finns ju sådana program för windows, det borde finnas till linux också. Problemet är att min scanner inte verkar klara av ocr utan det blir alltid som en bild även då jag gör det till pdf. Därför vore lösningen med ett programm som kan konvertera sådant till ett textdokument.

För att svara på frågan "program för att konvertera pdf till text", så finns t.ex. pdftotext och pdftohtml i paketet

poppler-utils. De är terminalprogram. Jag har för mej att det finns många andra liknande program. För grafiskt användargränssnitt kan man helt enkelt öppna pdf-filen i Abiword. Den använder nåt liknande pdftotext i bakgrunden och man får upp ett dokument med bara text utan bilder (

abiword ver 2.8.2).

Det du söker efter kallas för OCR (Optical character recognition). Vet tyvärr inte vilka program som är bäst för detta till *NIX, men om du googlar lär du hitta något. Första träffen för mig är t.ex. en gratis webbtjänst: http://www.free-ocr.com/

För att svara på frågan "har skannat en text som bild i pdf, och sedan vill konvertera till text", så kallas det OCR. I förråden för 10.04 finns

gocr,

ocrad och

tesseract. De är alla terminalprogram.

De klarar inte pdf utan vill ha bilder som input. Det går att extrahera bilder från pdf om det skulle behövas, men det verkar vara en omväg. Skulle tro att det är enklare om du skannar till en bild direkt, och inte till pdf.

När jag testade funkade gocr halvbra och ocrad ganska dåligt. Det gäller att ha bra upplösning (många punkter per tum) i originalbilden och gärna bra skärpa. Jag testade inte tesseract för jag lyckades inte komma på hur man använder den. Säg gärna till om du kommer på det.

Exempel om du har en bildfil. Med gocr:

Kod: Markera allt

anytopnm < skannat.gif | gocr -d 0 > skannat.txt

Med ocrad:

Kod: Markera allt

anytopnm < skannat.gif | ocrad > skannat.txt

Båda programmen har växlar för att finjustera processen. Se deras man-sidor.

(anytopnm för att konvertera gif (eller vadsomhelst) till pnm, för det är det bildformat gocr och ocrad vill ha. Finns i paketet

netpbm.)

(Kan du ändra rubrik på tråden?)

EDIT:

Har nu snabb-testat

ocropus. Den vill ha png-fil som input och ger html som output.

Kod: Markera allt

ocroscript recognize skannat.png > skannat.htm

Troligen använder den tesseract i bakgrunden. Fick inte åäö. Annars ungefär lika halvbra som gocr. (Alla exempel kan nog bli bättre med väl valda växlar för att justera processen.)

EDIT:

Har nu snabb-testat http://www.free-ocr.com/ (tack hnarn) och resultatet var riktigt bra. Inga "l" som blev "1" eller tvärt om, vad jag kan se.

EDIT:

Har nu snabb-testat

cuneiform 0.7.0 och resultatet blev ganska dåligt. Svårt hitta dokumentation som inte är på ryska.

Kod: Markera allt

cuneiform -l swe -o skannat.txt skannat.jpg

Det är viktigt att raderna är vågräta. Jag har använt unpaper för detta.

tesseract är det enda program jag har testat. Den jobbar med tif bilder. Så det är viktigt att pdf-en konverteras till tif på ett bra sätt.

Ubuntu Sverige

Program för att konvertera pdf till text

Program för att konvertera pdf till text

Re: programm för att konvertera pdf till text

Re: programm för att konvertera pdf till text

Re: programm för att konvertera pdf till text

Re: programm för att konvertera pdf till text

Re: programm för att konvertera pdf till text

Re: Program för att konvertera pdf till text