Jag såg nyligen om det mycket trevliga catdoc (finns i synaptic) som gör om M$WORD till text och blev genast kär.
Men jag funderar på något liknande för pdf - jag kan se pdftk i synaptic, men det verkar handla mer om att klippa-och-klistra pdf'er, jag vill bara få ut texten ur dem.
Jag har testat pstotext ("pstotext filnamn") men jag får bara en massa "##############" från en fil som är en hemsida printad med ubuntus default pdf-printer.
Någon som har någon erfarenhet om pdftk eller som vet om något annat?
/Per
catpdf? (motsvarande catdoc, fast för pdf)
- per9000
- Inlägg: 931
- Blev medlem: 07 maj 2007, 11:06
- OS: Ubuntu
- Utgåva: 23.04 Lunar Lobster
- Ort: Västerås
- Kontakt:
SV: catpdf? (motsvarande catdoc, fast för pdf)
ok, det funkar visst bättre med andra filer - till exempel http://www.idealsoftware.com/PDF/rtf.pdf blir relativt sund.
Det verkar som att abi-word och kwrite (?) kan läsa pdf också, kan man köra dem från kommando raden, typ
/Per
Det verkar som att abi-word och kwrite (?) kan läsa pdf också, kan man köra dem från kommando raden, typ
Kod: Markera allt
abiword rtf.pdf --dont-open-just-save-as-text rft.txt
- mcNisse
- Inlägg: 5211
- Blev medlem: 06 feb 2007, 20:51
- OS: Debian
- Utgåva: Vet inte/ingen utgåva passar
SV: catpdf? (motsvarande catdoc, fast för pdf)
Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...
KDE 4.5 SC är ute i det fria!!! Tjoho
Stagnation is good for nobody - after all if you don't progress you end up with gnome
Stagnation is good for nobody - after all if you don't progress you end up with gnome
- per9000
- Inlägg: 931
- Blev medlem: 07 maj 2007, 11:06
- OS: Ubuntu
- Utgåva: 23.04 Lunar Lobster
- Ort: Västerås
- Kontakt:
SV: catpdf? (motsvarande catdoc, fast för pdf)
Jag tolkar det som att Ubuntus default pdf-printer gör om fin html till skabbig binär-data. Men filer jag skapat från LaTeX-kod och gjort till pdf går riktigt bra att konvertera. Så detta kanske är en "feature" hos pdf-printern?mcNisse skrev: Eftersom pdf:er kan innehålla binärdata, tex skannade bilder, går det inte alltid direkt att ta fram texten ur en pdf. Eftersom jag sitter och ugglar vid groklaw.net ganska ofta vet jag att det finns programvara för att ta fram texten. Dock har jag inte lyckats...
/Per
ps: groklaw regerar!