catpdf? (motsvarande catdoc, fast för pdf)

per9000 · Inlägg av **per9000** » 19 dec 2007, 14:42

Jag såg nyligen om det mycket trevliga catdoc (finns i synaptic) som gör om M$WORD till text och blev genast kär.

Men jag funderar på något liknande för pdf - jag kan se pdftk i synaptic, men det verkar handla mer om att klippa-och-klistra pdf'er, jag vill bara få ut texten ur dem.

Jag har testat pstotext ("pstotext filnamn") men jag får bara en massa "##############" från en fil som är en hemsida printad med ubuntus default pdf-printer.

Någon som har någon erfarenhet om pdftk eller som vet om något annat?

/Per

per9000 · Inlägg av **per9000** » 19 dec 2007, 14:49

ok, det funkar visst bättre med andra filer - till exempel http://www.idealsoftware.com/PDF/rtf.pdf blir relativt sund.

Det verkar som att abi-word och kwrite (?) kan läsa pdf också, kan man köra dem från kommando raden, typ

Kod: Markera allt

abiword rtf.pdf --dont-open-just-save-as-text rft.txt

/Per

mcNisse · Inlägg av **mcNisse** » 19 dec 2007, 21:04

Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...

per9000 · Inlägg av **per9000** » 19 dec 2007, 21:26

mcNisse skrev: Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...

Jag tolkar det som att Ubuntus default pdf-printer gör om fin html till skabbig binär-data. Men filer jag skapat från LaTeX-kod och gjort till pdf går riktigt bra att konvertera. Så detta kanske är en "feature" hos pdf-printern?

/Per

ps: groklaw regerar!

Ubuntu Sverige

catpdf? (motsvarande catdoc, fast för pdf)

catpdf? (motsvarande catdoc, fast för pdf)

SV: catpdf? (motsvarande catdoc, fast för pdf)

SV: catpdf? (motsvarande catdoc, fast för pdf)

SV: catpdf? (motsvarande catdoc, fast för pdf)