catpdf? (motsvarande catdoc, fast för pdf)

Här diskuterar vi skal, kommandon och klassiska linuxverktyg.
Användarvisningsbild
per9000
Inlägg: 931
Blev medlem: 07 maj 2007, 11:06
OS: Ubuntu
Utgåva: 23.04 Lunar Lobster
Ort: Västerås
Kontakt:

catpdf? (motsvarande catdoc, fast för pdf)

Inlägg av per9000 »

Jag såg nyligen om det mycket trevliga catdoc (finns i synaptic) som gör om M$WORD till text och blev genast kär.

Men jag funderar på något liknande för pdf - jag kan se pdftk i synaptic, men det verkar handla mer om att klippa-och-klistra pdf'er, jag vill bara få ut texten ur dem.

Jag har testat pstotext ("pstotext filnamn") men jag får bara en massa "##############" från en fil som är en hemsida printad med ubuntus default pdf-printer.

Någon som har någon erfarenhet om pdftk eller som vet om något annat?

/Per
--
Per Erik Strandberg
Yet Another IT Consultant
Användarvisningsbild
per9000
Inlägg: 931
Blev medlem: 07 maj 2007, 11:06
OS: Ubuntu
Utgåva: 23.04 Lunar Lobster
Ort: Västerås
Kontakt:

SV: catpdf? (motsvarande catdoc, fast för pdf)

Inlägg av per9000 »

ok, det funkar visst bättre med andra filer - till exempel http://www.idealsoftware.com/PDF/rtf.pdf blir relativt sund.

Det verkar som att abi-word och kwrite (?) kan läsa pdf också, kan man köra dem från kommando raden, typ

Kod: Markera allt

abiword rtf.pdf --dont-open-just-save-as-text rft.txt
/Per
--
Per Erik Strandberg
Yet Another IT Consultant
Användarvisningsbild
mcNisse
Inlägg: 5211
Blev medlem: 06 feb 2007, 20:51
OS: Debian
Utgåva: Vet inte/ingen utgåva passar

SV: catpdf? (motsvarande catdoc, fast för pdf)

Inlägg av mcNisse »

Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...
KDE 4.5 SC är ute i det fria!!! Tjoho

Stagnation is good for nobody - after all if you don't progress you end up with gnome
Användarvisningsbild
per9000
Inlägg: 931
Blev medlem: 07 maj 2007, 11:06
OS: Ubuntu
Utgåva: 23.04 Lunar Lobster
Ort: Västerås
Kontakt:

SV: catpdf? (motsvarande catdoc, fast för pdf)

Inlägg av per9000 »

mcNisse skrev: Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...
Jag tolkar det som att Ubuntus default pdf-printer gör om fin html till skabbig binär-data. Men filer jag skapat från LaTeX-kod och gjort till pdf går riktigt bra att konvertera. Så detta kanske är en "feature" hos pdf-printern?

/Per

ps: groklaw regerar!
--
Per Erik Strandberg
Yet Another IT Consultant
Skriv svar

Återgå till "Terminalforum"