Sida 1 av 1

Program för att identifiera språk? [LÖST]

Postat: 11 sep 2009, 05:05
av ubot
Jag söker ett program (skript) som klarar av att identifiera vilket språk en text är på. Jag vet att Google har ett sådant verktyg, men vill helst inte vara beroende av Google utan ha en programvara som klarar samma sak med tillräckligt hög precision, dvs identifiera svenska, engelska, tyska från en text på kanske ca 100+ ord. Det bästa hade varit bra om "skriptet" klarade av att ta URLs så att det hade gått att läsa av en URL och sedan sortera länken efter språktyp.

Jag vill alltså kunna identifiera om en länk innehåller text på svenska, engelska eller något annat vanligt språk. det viktiga är svenska eller engelska.

Vad säger ni, finns det något färdigt till Linux som fixar det här eller måste jag koda ihop något skript?

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 20:32
av ubot
Jag har hittat två verktyg. Återstår att se om programmen fixar biffen.

http://ling.unizd.hr/~dcavar/LID/index.html
http://pear.php.net/package/Text_LanguageDetect/

Nu behöver jag en textfil på svenska för att skapa stöd för svenska. Finns det någon bra textfil, typ svenska.txt på Nätet? Jag behöver helt enkelt en massa text på svenska utan någon formatering, en "plain text" fil på svenska. Var hittar jag det? Ett förslag är ju att ladda ner massa artiklar från Wikipedia, men hur får jag texten i ren text?

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 20:55
av Lars
Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?

Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 21:28
av ubot
Lars skrev:Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?

Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic
Jag tänkte att jag skulle ha ca 100 sidor text så därför hade det varit bra om det fanns en text på svenska som ren text utan formatering etc.

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 21:51
av Rasmus
I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.

Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 21:59
av ubot
Rasmus skrev:I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.

Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.
Ja, det skapar ett diagram över vanliga ord. För att skapa en så bra statistik som möjligt så verkar det om man ska ha ren text. Helst en bok på svenska som .txt fil.

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 22:12
av ubot
Äsch, jag måste ha mer text. Programmet skiljer inte på tyska och svenska, inte ens mellan engelska och svenska.

Edit:

Jag löste det genom att ladda ner en ordlista på svenska från Aircracks FAQ.

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 22:24
av Rasmus
räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 22:46
av ubot
Rasmus skrev:räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen
Jag har redan fått det att fungera med en ordlista från Aircracks FAQ. Tack iaf!

Re: Program för att identifiera språk?

Postat: 11 sep 2009, 22:57
av Lars
Bra att det löste sig.

Men jag kom på en annan bra källa till svenska texter, Projekt Runeberg. Där finns t.ex. Röda rummet och andra böcker som inte längre är upphovsrättsskyddade.