Program för att konvertera pdf till text

Här behandlar vi program för ordbehandling, kalkyl, presentation och även e-post.
Ainigma
Inlägg: 803
Blev medlem: 26 sep 2007, 20:49
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Program för att konvertera pdf till text

Inlägg av Ainigma »

Finns det något program som kan konvertera pdf till text? T. ex odt?
:)
Senast redigerad av 1 Ainigma, redigerad totalt 3 gånger.
Pavel
Inlägg: 849
Blev medlem: 24 mar 2009, 08:32
OS: Annat GNU/Linux
Utgåva: Vet inte/ingen utgåva passar

Re: programm för att konvertera pdf till text

Inlägg av Pavel »

Kopiera från PDF -> Klistra in i Writer?
Ainigma
Inlägg: 803
Blev medlem: 26 sep 2007, 20:49
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: programm för att konvertera pdf till text

Inlägg av Ainigma »

Förlåt jag var lite oklar. Jag menar en situation då du har skannat en text som bild i pdf, och sedan vill konvertera till text. Det finns ju sådana program för windows, det borde finnas till linux också. Problemet är att min scanner inte verkar klara av ocr utan det blir alltid som en bild även då jag gör det till pdf. Därför vore lösningen med ett programm som kan konvertera sådant till ett textdokument.

:)
David Andersson
Inlägg: 1269
Blev medlem: 15 dec 2007, 03:20
OS: Xubuntu

Re: programm för att konvertera pdf till text

Inlägg av David Andersson »

För att svara på frågan "program för att konvertera pdf till text", så finns t.ex. pdftotext och pdftohtml i paketet poppler-utils. De är terminalprogram. Jag har för mej att det finns många andra liknande program. För grafiskt användargränssnitt kan man helt enkelt öppna pdf-filen i Abiword. Den använder nåt liknande pdftotext i bakgrunden och man får upp ett dokument med bara text utan bilder (abiword ver 2.8.2).
Användarvisningsbild
hnarn
Inlägg: 2
Blev medlem: 03 sep 2011, 14:51
OS: Windows

Re: programm för att konvertera pdf till text

Inlägg av hnarn »

Det du söker efter kallas för OCR (Optical character recognition). Vet tyvärr inte vilka program som är bäst för detta till *NIX, men om du googlar lär du hitta något. Första träffen för mig är t.ex. en gratis webbtjänst: http://www.free-ocr.com/
David Andersson
Inlägg: 1269
Blev medlem: 15 dec 2007, 03:20
OS: Xubuntu

Re: programm för att konvertera pdf till text

Inlägg av David Andersson »

För att svara på frågan "har skannat en text som bild i pdf, och sedan vill konvertera till text", så kallas det OCR. I förråden för 10.04 finns gocr, ocrad och tesseract. De är alla terminalprogram.

De klarar inte pdf utan vill ha bilder som input. Det går att extrahera bilder från pdf om det skulle behövas, men det verkar vara en omväg. Skulle tro att det är enklare om du skannar till en bild direkt, och inte till pdf.

När jag testade funkade gocr halvbra och ocrad ganska dåligt. Det gäller att ha bra upplösning (många punkter per tum) i originalbilden och gärna bra skärpa. Jag testade inte tesseract för jag lyckades inte komma på hur man använder den. Säg gärna till om du kommer på det.

Exempel om du har en bildfil. Med gocr:

Kod: Markera allt

anytopnm < skannat.gif | gocr -d 0 > skannat.txt
Med ocrad:

Kod: Markera allt

anytopnm < skannat.gif | ocrad > skannat.txt
Båda programmen har växlar för att finjustera processen. Se deras man-sidor.

(anytopnm för att konvertera gif (eller vadsomhelst) till pnm, för det är det bildformat gocr och ocrad vill ha. Finns i paketet netpbm.)

(Kan du ändra rubrik på tråden?)

EDIT:

Har nu snabb-testat ocropus. Den vill ha png-fil som input och ger html som output.

Kod: Markera allt

ocroscript recognize skannat.png > skannat.htm
Troligen använder den tesseract i bakgrunden. Fick inte åäö. Annars ungefär lika halvbra som gocr. (Alla exempel kan nog bli bättre med väl valda växlar för att justera processen.)

EDIT:

Har nu snabb-testat http://www.free-ocr.com/ (tack hnarn) och resultatet var riktigt bra. Inga "l" som blev "1" eller tvärt om, vad jag kan se.

EDIT:

Har nu snabb-testat cuneiform 0.7.0 och resultatet blev ganska dåligt. Svårt hitta dokumentation som inte är på ryska.

Kod: Markera allt

cuneiform -l swe -o skannat.txt skannat.jpg
Senast redigerad av 1 David Andersson, redigerad totalt 7 gånger.
Användarvisningsbild
mcNisse
Inlägg: 5211
Blev medlem: 06 feb 2007, 20:51
OS: Debian
Utgåva: Vet inte/ingen utgåva passar

Re: Program för att konvertera pdf till text

Inlägg av mcNisse »

Det är viktigt att raderna är vågräta. Jag har använt unpaper för detta.

tesseract är det enda program jag har testat. Den jobbar med tif bilder. Så det är viktigt att pdf-en konverteras till tif på ett bra sätt.
Skriv svar

Återgå till "Kontor"