Sida 1 av 1

catpdf? (motsvarande catdoc, fast för pdf)

Postat: 19 dec 2007, 14:42
av per9000
Jag såg nyligen om det mycket trevliga catdoc (finns i synaptic) som gör om M$WORD till text och blev genast kär.

Men jag funderar på något liknande för pdf - jag kan se pdftk i synaptic, men det verkar handla mer om att klippa-och-klistra pdf'er, jag vill bara få ut texten ur dem.

Jag har testat pstotext ("pstotext filnamn") men jag får bara en massa "##############" från en fil som är en hemsida printad med ubuntus default pdf-printer.

Någon som har någon erfarenhet om pdftk eller som vet om något annat?

/Per

SV: catpdf? (motsvarande catdoc, fast för pdf)

Postat: 19 dec 2007, 14:49
av per9000
ok, det funkar visst bättre med andra filer - till exempel http://www.idealsoftware.com/PDF/rtf.pdf blir relativt sund.

Det verkar som att abi-word och kwrite (?) kan läsa pdf också, kan man köra dem från kommando raden, typ

Kod: Markera allt

abiword rtf.pdf --dont-open-just-save-as-text rft.txt
/Per

SV: catpdf? (motsvarande catdoc, fast för pdf)

Postat: 19 dec 2007, 21:04
av mcNisse
Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...

SV: catpdf? (motsvarande catdoc, fast för pdf)

Postat: 19 dec 2007, 21:26
av per9000
mcNisse skrev: Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...
Jag tolkar det som att Ubuntus default pdf-printer gör om fin html till skabbig binär-data. Men filer jag skapat från LaTeX-kod och gjort till pdf går riktigt bra att konvertera. Så detta kanske är en "feature" hos pdf-printern?

/Per

ps: groklaw regerar!