
Program för att konvertera pdf till text
Program för att konvertera pdf till text
Finns det något program som kan konvertera pdf till text? T. ex odt?


Senast redigerad av 1 Ainigma, redigerad totalt 3 gånger.
-
- Inlägg: 849
- Blev medlem: 24 mar 2009, 08:32
- OS: Annat GNU/Linux
- Utgåva: Vet inte/ingen utgåva passar
Re: programm för att konvertera pdf till text
Kopiera från PDF -> Klistra in i Writer?
Re: programm för att konvertera pdf till text
Förlåt jag var lite oklar. Jag menar en situation då du har skannat en text som bild i pdf, och sedan vill konvertera till text. Det finns ju sådana program för windows, det borde finnas till linux också. Problemet är att min scanner inte verkar klara av ocr utan det blir alltid som en bild även då jag gör det till pdf. Därför vore lösningen med ett programm som kan konvertera sådant till ett textdokument.


-
- Inlägg: 1269
- Blev medlem: 15 dec 2007, 03:20
- OS: Xubuntu
Re: programm för att konvertera pdf till text
För att svara på frågan "program för att konvertera pdf till text", så finns t.ex. pdftotext och pdftohtml i paketet
poppler-utils. De är terminalprogram. Jag har för mej att det finns många andra liknande program. För grafiskt användargränssnitt kan man helt enkelt öppna pdf-filen i Abiword. Den använder nåt liknande pdftotext i bakgrunden och man får upp ett dokument med bara text utan bilder (
abiword ver 2.8.2).


Re: programm för att konvertera pdf till text
Det du söker efter kallas för OCR (Optical character recognition). Vet tyvärr inte vilka program som är bäst för detta till *NIX, men om du googlar lär du hitta något. Första träffen för mig är t.ex. en gratis webbtjänst: http://www.free-ocr.com/
-
- Inlägg: 1269
- Blev medlem: 15 dec 2007, 03:20
- OS: Xubuntu
Re: programm för att konvertera pdf till text
För att svara på frågan "har skannat en text som bild i pdf, och sedan vill konvertera till text", så kallas det OCR. I förråden för 10.04 finns
gocr,
ocrad och
tesseract. De är alla terminalprogram.
De klarar inte pdf utan vill ha bilder som input. Det går att extrahera bilder från pdf om det skulle behövas, men det verkar vara en omväg. Skulle tro att det är enklare om du skannar till en bild direkt, och inte till pdf.
När jag testade funkade gocr halvbra och ocrad ganska dåligt. Det gäller att ha bra upplösning (många punkter per tum) i originalbilden och gärna bra skärpa. Jag testade inte tesseract för jag lyckades inte komma på hur man använder den. Säg gärna till om du kommer på det.
Exempel om du har en bildfil. Med gocr:
Med ocrad:
Båda programmen har växlar för att finjustera processen. Se deras man-sidor.
(anytopnm för att konvertera gif (eller vadsomhelst) till pnm, för det är det bildformat gocr och ocrad vill ha. Finns i paketet
netpbm.)
(Kan du ändra rubrik på tråden?)
EDIT:
Har nu snabb-testat
ocropus. Den vill ha png-fil som input och ger html som output.
Troligen använder den tesseract i bakgrunden. Fick inte åäö. Annars ungefär lika halvbra som gocr. (Alla exempel kan nog bli bättre med väl valda växlar för att justera processen.)
EDIT:
Har nu snabb-testat http://www.free-ocr.com/ (tack hnarn) och resultatet var riktigt bra. Inga "l" som blev "1" eller tvärt om, vad jag kan se.
EDIT:
Har nu snabb-testat
cuneiform 0.7.0 och resultatet blev ganska dåligt. Svårt hitta dokumentation som inte är på ryska.



De klarar inte pdf utan vill ha bilder som input. Det går att extrahera bilder från pdf om det skulle behövas, men det verkar vara en omväg. Skulle tro att det är enklare om du skannar till en bild direkt, och inte till pdf.
När jag testade funkade gocr halvbra och ocrad ganska dåligt. Det gäller att ha bra upplösning (många punkter per tum) i originalbilden och gärna bra skärpa. Jag testade inte tesseract för jag lyckades inte komma på hur man använder den. Säg gärna till om du kommer på det.
Exempel om du har en bildfil. Med gocr:
Kod: Markera allt
anytopnm < skannat.gif | gocr -d 0 > skannat.txt
Kod: Markera allt
anytopnm < skannat.gif | ocrad > skannat.txt
(anytopnm för att konvertera gif (eller vadsomhelst) till pnm, för det är det bildformat gocr och ocrad vill ha. Finns i paketet

(Kan du ändra rubrik på tråden?)
EDIT:
Har nu snabb-testat

Kod: Markera allt
ocroscript recognize skannat.png > skannat.htm
EDIT:
Har nu snabb-testat http://www.free-ocr.com/ (tack hnarn) och resultatet var riktigt bra. Inga "l" som blev "1" eller tvärt om, vad jag kan se.
EDIT:
Har nu snabb-testat

Kod: Markera allt
cuneiform -l swe -o skannat.txt skannat.jpg
Senast redigerad av 1 David Andersson, redigerad totalt 7 gånger.
- mcNisse
- Inlägg: 5211
- Blev medlem: 06 feb 2007, 20:51
- OS: Debian
- Utgåva: Vet inte/ingen utgåva passar
Re: Program för att konvertera pdf till text
Det är viktigt att raderna är vågräta. Jag har använt unpaper för detta.
tesseract är det enda program jag har testat. Den jobbar med tif bilder. Så det är viktigt att pdf-en konverteras till tif på ett bra sätt.
tesseract är det enda program jag har testat. Den jobbar med tif bilder. Så det är viktigt att pdf-en konverteras till tif på ett bra sätt.