Sida 1 av 1
PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 20:46
av Blanders
Hur gör man för att konvertera pdf till txt?
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 20:57
av Konservburk
Det finns ett program som heter
pdftotext som följer med paketet
poppler-utils. Det är ett kommandoradsprogram utan grafiskt gränssnitt. Det används lämpligen genom att i en terminal köra kommandot:
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 21:11
av Blanders
Kod: Markera allt
Kommandot "pdftotxt" hittades inte. Menade du:
Kommandot "pdftotext" från paketet "xpdf-utils" (universe)
Kommandot "pdftotext" från paketet "poppler-utils" (main)
pdftotxt: kommandot hittades inte
poppler-utils är förvisso installerat.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 21:23
av Konservburk
Du försökte med pdftotxt, som inte finns. Kommandot heter pdftotext med ett e tredje bokstaven från slutet.
EDIT: Jag kan ju passa på att tipsa om tab-komplettering. Skriv första delen av kommandot och tryck sedan på tab-tangenten så fylls resten i automatiskt eller så får du olika möjligheter listade.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 21:34
av Blanders
Oj, sorry... är lite tjött
Jag fick en .txt-fil men bara med massa jibbrisch.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 21:37
av Blanders
Blanders skrev:Oj, sorry... är lite tjött
Jag fick en .txt-fil men bara med massa jibbrisch.
Har utfallet nåt att göra med var pdf-filen kommer från? I detta fall är den gjord i Mac [Mac OS X 10.5.8 Quartz PDFContext]
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 21:38
av Konservburk
Jag föreslår att du testar med ett par olika pdf-dokument för att ta reda på om du alltid får samma fel, eller om det beror på just den här pdf-filen.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 21:42
av Blanders
Ok, ska göra det. Jag har redan testat ett par online-tjänster med samma jibbrisch-resultat.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 22:22
av Blanders
Det funkar utmärkt med en egen pdf-fil exporterad från OO.
Då kanske det är nåt med just den aktuella pdf-filen som inte synkar?
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 22:27
av Konservburk
Det verkar så ja. Den kanske är krypterad och lösenordsskyddad?
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 22:34
av Blanders
Jag kan undersöka om lösenord finns. Syns inte det i dok.egenskaperna då?
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 22:36
av Konservburk
Jag vet tyvärr inte. Jag har inte jättebra koll på pdf-formatet.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 09 sep 2010, 22:54
av Luxwarp
jämför filegenskaperna på olika pdf filer, den som fungerar och den som ger jibbrisch eller vad du kalla det

Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 10 sep 2010, 01:00
av Blanders
Stampe skrev:jämför filegenskaperna på olika pdf filer, den som fungerar och den som ger jibbrisch eller vad du kalla det

Jibbrish-varianten har avvikande egenskaperna 'PDF 1.3' och att den är gjord i Mac OS X 10.5.8 Quartz PDFContext
Den som funkar är exp i OO och har formatet 'PDF 1.4'
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 10 sep 2010, 12:16
av mcNisse
En pdf kan innehålla olika saker. En pdf genererad från OO, kan innehålla texten i klartext. Klart det går bra att få ut det då. Andra innehåller en tiff bild där man verkligen måste köra ett OCR-program på för att få ut texten.
Jag försökte tolka filer ur comes vs microsoft. Vissa gick bra andre fungerade inte. De flesta har urkass kvalité.
Jag hittade ett program som rättade till texten så att texten blev horisontell. Många dokument är skannade lite snett. Det hjälpe en del.
Men är kvalitén på rådatat kasst är det svårt...
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 10 sep 2010, 12:43
av Blanders
mcNisse skrev:En pdf kan innehålla olika saker. En pdf genererad från OO, kan innehålla texten i klartext. Klart det går bra att få ut det då. Andra innehåller en tiff bild där man verkligen måste köra ett OCR-program på för att få ut texten.
Jag försökte tolka filer ur comes vs microsoft. Vissa gick bra andre fungerade inte. De flesta har urkass kvalité.
Jag hittade ett program som rättade till texten så att texten blev horisontell. Många dokument är skannade lite snett. Det hjälpe en del.
Men är kvalitén på rådatat kasst är det svårt...
Dokumentet ifråga är ett .rtf skrivet i windows.
Re: PDF to TXT - poppler-utils. Hur funkar det?
Postat: 10 sep 2010, 14:40
av mcNisse
Då är filen troligtvis genererad med en printerdrivrutin. Det innebär att det borde gå bra att köra ett OCR-program för att få fram texten. Är pdftotext ett sådant?