Sida 1 av 1

Program för att konvertera pdf till text

Postat: 03 sep 2011, 10:41
av Ainigma
Finns det något program som kan konvertera pdf till text? T. ex odt?
:)

Re: programm för att konvertera pdf till text

Postat: 03 sep 2011, 11:10
av Pavel
Kopiera från PDF -> Klistra in i Writer?

Re: programm för att konvertera pdf till text

Postat: 03 sep 2011, 13:38
av Ainigma
Förlåt jag var lite oklar. Jag menar en situation då du har skannat en text som bild i pdf, och sedan vill konvertera till text. Det finns ju sådana program för windows, det borde finnas till linux också. Problemet är att min scanner inte verkar klara av ocr utan det blir alltid som en bild även då jag gör det till pdf. Därför vore lösningen med ett programm som kan konvertera sådant till ett textdokument.

:)

Re: programm för att konvertera pdf till text

Postat: 03 sep 2011, 14:38
av David Andersson
För att svara på frågan "program för att konvertera pdf till text", så finns t.ex. pdftotext och pdftohtml i paketet poppler-utils. De är terminalprogram. Jag har för mej att det finns många andra liknande program. För grafiskt användargränssnitt kan man helt enkelt öppna pdf-filen i Abiword. Den använder nåt liknande pdftotext i bakgrunden och man får upp ett dokument med bara text utan bilder (abiword ver 2.8.2).

Re: programm för att konvertera pdf till text

Postat: 03 sep 2011, 15:01
av hnarn
Det du söker efter kallas för OCR (Optical character recognition). Vet tyvärr inte vilka program som är bäst för detta till *NIX, men om du googlar lär du hitta något. Första träffen för mig är t.ex. en gratis webbtjänst: http://www.free-ocr.com/

Re: programm för att konvertera pdf till text

Postat: 03 sep 2011, 15:11
av David Andersson
För att svara på frågan "har skannat en text som bild i pdf, och sedan vill konvertera till text", så kallas det OCR. I förråden för 10.04 finns gocr, ocrad och tesseract. De är alla terminalprogram.

De klarar inte pdf utan vill ha bilder som input. Det går att extrahera bilder från pdf om det skulle behövas, men det verkar vara en omväg. Skulle tro att det är enklare om du skannar till en bild direkt, och inte till pdf.

När jag testade funkade gocr halvbra och ocrad ganska dåligt. Det gäller att ha bra upplösning (många punkter per tum) i originalbilden och gärna bra skärpa. Jag testade inte tesseract för jag lyckades inte komma på hur man använder den. Säg gärna till om du kommer på det.

Exempel om du har en bildfil. Med gocr:

Kod: Markera allt

anytopnm < skannat.gif | gocr -d 0 > skannat.txt
Med ocrad:

Kod: Markera allt

anytopnm < skannat.gif | ocrad > skannat.txt
Båda programmen har växlar för att finjustera processen. Se deras man-sidor.

(anytopnm för att konvertera gif (eller vadsomhelst) till pnm, för det är det bildformat gocr och ocrad vill ha. Finns i paketet netpbm.)

(Kan du ändra rubrik på tråden?)

EDIT:

Har nu snabb-testat ocropus. Den vill ha png-fil som input och ger html som output.

Kod: Markera allt

ocroscript recognize skannat.png > skannat.htm
Troligen använder den tesseract i bakgrunden. Fick inte åäö. Annars ungefär lika halvbra som gocr. (Alla exempel kan nog bli bättre med väl valda växlar för att justera processen.)

EDIT:

Har nu snabb-testat http://www.free-ocr.com/ (tack hnarn) och resultatet var riktigt bra. Inga "l" som blev "1" eller tvärt om, vad jag kan se.

EDIT:

Har nu snabb-testat cuneiform 0.7.0 och resultatet blev ganska dåligt. Svårt hitta dokumentation som inte är på ryska.

Kod: Markera allt

cuneiform -l swe -o skannat.txt skannat.jpg

Re: Program för att konvertera pdf till text

Postat: 06 sep 2011, 07:56
av mcNisse
Det är viktigt att raderna är vågräta. Jag har använt unpaper för detta.

tesseract är det enda program jag har testat. Den jobbar med tif bilder. Så det är viktigt att pdf-en konverteras till tif på ett bra sätt.