PDF to TXT - poppler-utils. Hur funkar det?

Här behandlar vi program för ordbehandling, kalkyl, presentation och även e-post.
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Hur gör man för att konvertera pdf till txt?
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Konservburk »

Det finns ett program som heter pdftotext som följer med paketet poppler-utils. Det är ett kommandoradsprogram utan grafiskt gränssnitt. Det används lämpligen genom att i en terminal köra kommandot:

Kod: Markera allt

pdftotext /sökväg/till/filen.pdf
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Kod: Markera allt

Kommandot "pdftotxt" hittades inte. Menade du:
 Kommandot "pdftotext" från paketet "xpdf-utils" (universe)
 Kommandot "pdftotext" från paketet "poppler-utils" (main)
pdftotxt: kommandot hittades inte
poppler-utils är förvisso installerat.
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Konservburk »

Du försökte med pdftotxt, som inte finns. Kommandot heter pdftotext med ett e tredje bokstaven från slutet.

EDIT: Jag kan ju passa på att tipsa om tab-komplettering. Skriv första delen av kommandot och tryck sedan på tab-tangenten så fylls resten i automatiskt eller så får du olika möjligheter listade.
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Oj, sorry... är lite tjött :-[

Jag fick en .txt-fil men bara med massa jibbrisch.
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Blanders skrev:Oj, sorry... är lite tjött :-[

Jag fick en .txt-fil men bara med massa jibbrisch.
Har utfallet nåt att göra med var pdf-filen kommer från? I detta fall är den gjord i Mac [Mac OS X 10.5.8 Quartz PDFContext]
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Konservburk »

Jag föreslår att du testar med ett par olika pdf-dokument för att ta reda på om du alltid får samma fel, eller om det beror på just den här pdf-filen.
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Ok, ska göra det. Jag har redan testat ett par online-tjänster med samma jibbrisch-resultat.
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Det funkar utmärkt med en egen pdf-fil exporterad från OO.
Då kanske det är nåt med just den aktuella pdf-filen som inte synkar?
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Konservburk »

Det verkar så ja. Den kanske är krypterad och lösenordsskyddad?
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Jag kan undersöka om lösenord finns. Syns inte det i dok.egenskaperna då?
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Konservburk »

Jag vet tyvärr inte. Jag har inte jättebra koll på pdf-formatet.
Användarvisningsbild
Luxwarp
Inlägg: 591
Blev medlem: 16 nov 2007, 02:05
OS: Ubuntu
Utgåva: 22.04 Jammy Jellyfish LTS
Ort: Göteborg
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Luxwarp »

jämför filegenskaperna på olika pdf filer, den som fungerar och den som ger jibbrisch eller vad du kalla det :D
--------------------------------------
Luxwarp (fd. Zifilion / MMCarlsson)

IT Consultant and Web developer.

Check out my blog about Ubuntu, development, tips, tech and all my projects over at https://codeiolo.org
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

Stampe skrev:jämför filegenskaperna på olika pdf filer, den som fungerar och den som ger jibbrisch eller vad du kalla det :D
Jibbrish-varianten har avvikande egenskaperna 'PDF 1.3' och att den är gjord i Mac OS X 10.5.8 Quartz PDFContext

Den som funkar är exp i OO och har formatet 'PDF 1.4'
Användarvisningsbild
mcNisse
Inlägg: 5211
Blev medlem: 06 feb 2007, 20:51
OS: Debian
Utgåva: Vet inte/ingen utgåva passar

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av mcNisse »

En pdf kan innehålla olika saker. En pdf genererad från OO, kan innehålla texten i klartext. Klart det går bra att få ut det då. Andra innehåller en tiff bild där man verkligen måste köra ett OCR-program på för att få ut texten.

Jag försökte tolka filer ur comes vs microsoft. Vissa gick bra andre fungerade inte. De flesta har urkass kvalité.

Jag hittade ett program som rättade till texten så att texten blev horisontell. Många dokument är skannade lite snett. Det hjälpe en del.
Men är kvalitén på rådatat kasst är det svårt...
Användarvisningsbild
Blanders
Inlägg: 211
Blev medlem: 28 jul 2007, 12:13
OS: Ubuntu
Utgåva: 18.04 Bionic Beaver LTS
Ort: Bandhagen
Kontakt:

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av Blanders »

mcNisse skrev:En pdf kan innehålla olika saker. En pdf genererad från OO, kan innehålla texten i klartext. Klart det går bra att få ut det då. Andra innehåller en tiff bild där man verkligen måste köra ett OCR-program på för att få ut texten.

Jag försökte tolka filer ur comes vs microsoft. Vissa gick bra andre fungerade inte. De flesta har urkass kvalité.

Jag hittade ett program som rättade till texten så att texten blev horisontell. Många dokument är skannade lite snett. Det hjälpe en del.
Men är kvalitén på rådatat kasst är det svårt...
Dokumentet ifråga är ett .rtf skrivet i windows.
Användarvisningsbild
mcNisse
Inlägg: 5211
Blev medlem: 06 feb 2007, 20:51
OS: Debian
Utgåva: Vet inte/ingen utgåva passar

Re: PDF to TXT - poppler-utils. Hur funkar det?

Inlägg av mcNisse »

Då är filen troligtvis genererad med en printerdrivrutin. Det innebär att det borde gå bra att köra ett OCR-program för att få fram texten. Är pdftotext ett sådant?
Skriv svar

Återgå till "Kontor"