Program för att identifiera språk? [LÖST]

ubot · Inlägg av **ubot** » 11 sep 2009, 05:05

Jag söker ett program (skript) som klarar av att identifiera vilket språk en text är på. Jag vet att Google har ett sådant verktyg, men vill helst inte vara beroende av Google utan ha en programvara som klarar samma sak med tillräckligt hög precision, dvs identifiera svenska, engelska, tyska från en text på kanske ca 100+ ord. Det bästa hade varit bra om "skriptet" klarade av att ta URLs så att det hade gått att läsa av en URL och sedan sortera länken efter språktyp.

Jag vill alltså kunna identifiera om en länk innehåller text på svenska, engelska eller något annat vanligt språk. det viktiga är svenska eller engelska.

Vad säger ni, finns det något färdigt till Linux som fixar det här eller måste jag koda ihop något skript?

ubot · Inlägg av **ubot** » 11 sep 2009, 20:32

Jag har hittat två verktyg. Återstår att se om programmen fixar biffen.

http://ling.unizd.hr/~dcavar/LID/index.html
http://pear.php.net/package/Text_LanguageDetect/

Nu behöver jag en textfil på svenska för att skapa stöd för svenska. Finns det någon bra textfil, typ svenska.txt på Nätet? Jag behöver helt enkelt en massa text på svenska utan någon formatering, en "plain text" fil på svenska. Var hittar jag det? Ett förslag är ju att ladda ner massa artiklar från Wikipedia, men hur får jag texten i ren text?

Lars · Inlägg av **Lars** » 11 sep 2009, 20:55

Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?

Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic

ubot · Inlägg av **ubot** » 11 sep 2009, 21:28

Lars skrev:Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?

Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic

Jag tänkte att jag skulle ha ca 100 sidor text så därför hade det varit bra om det fanns en text på svenska som ren text utan formatering etc.

Rasmus · Inlägg av **Rasmus** » 11 sep 2009, 21:51

I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.

Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.

ubot · Inlägg av **ubot** » 11 sep 2009, 21:59

Rasmus skrev:I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.

Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.

Ja, det skapar ett diagram över vanliga ord. För att skapa en så bra statistik som möjligt så verkar det om man ska ha ren text. Helst en bok på svenska som .txt fil.

ubot · Inlägg av **ubot** » 11 sep 2009, 22:12

Äsch, jag måste ha mer text. Programmet skiljer inte på tyska och svenska, inte ens mellan engelska och svenska.

Edit:

Jag löste det genom att ladda ner en ordlista på svenska från Aircracks FAQ.

Rasmus · Inlägg av **Rasmus** » 11 sep 2009, 22:24

räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen

ubot · Inlägg av **ubot** » 11 sep 2009, 22:46

Rasmus skrev:räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen

Jag har redan fått det att fungera med en ordlista från Aircracks FAQ. Tack iaf!

Lars · Inlägg av **Lars** » 11 sep 2009, 22:57

Bra att det löste sig.

Men jag kom på en annan bra källa till svenska texter, Projekt Runeberg. Där finns t.ex. Röda rummet och andra böcker som inte längre är upphovsrättsskyddade.

Ubuntu Sverige

Program för att identifiera språk? [LÖST]

Program för att identifiera språk? [LÖST]

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?

Re: Program för att identifiera språk?