Program för att identifiera språk? [LÖST]
Program för att identifiera språk? [LÖST]
Jag söker ett program (skript) som klarar av att identifiera vilket språk en text är på. Jag vet att Google har ett sådant verktyg, men vill helst inte vara beroende av Google utan ha en programvara som klarar samma sak med tillräckligt hög precision, dvs identifiera svenska, engelska, tyska från en text på kanske ca 100+ ord. Det bästa hade varit bra om "skriptet" klarade av att ta URLs så att det hade gått att läsa av en URL och sedan sortera länken efter språktyp.
Jag vill alltså kunna identifiera om en länk innehåller text på svenska, engelska eller något annat vanligt språk. det viktiga är svenska eller engelska.
Vad säger ni, finns det något färdigt till Linux som fixar det här eller måste jag koda ihop något skript?
Jag vill alltså kunna identifiera om en länk innehåller text på svenska, engelska eller något annat vanligt språk. det viktiga är svenska eller engelska.
Vad säger ni, finns det något färdigt till Linux som fixar det här eller måste jag koda ihop något skript?
Senast redigerad av 1 ubot, redigerad totalt 25 gånger.
Re: Program för att identifiera språk?
Jag har hittat två verktyg. Återstår att se om programmen fixar biffen.
http://ling.unizd.hr/~dcavar/LID/index.html
http://pear.php.net/package/Text_LanguageDetect/
Nu behöver jag en textfil på svenska för att skapa stöd för svenska. Finns det någon bra textfil, typ svenska.txt på Nätet? Jag behöver helt enkelt en massa text på svenska utan någon formatering, en "plain text" fil på svenska. Var hittar jag det? Ett förslag är ju att ladda ner massa artiklar från Wikipedia, men hur får jag texten i ren text?
http://ling.unizd.hr/~dcavar/LID/index.html
http://pear.php.net/package/Text_LanguageDetect/
Nu behöver jag en textfil på svenska för att skapa stöd för svenska. Finns det någon bra textfil, typ svenska.txt på Nätet? Jag behöver helt enkelt en massa text på svenska utan någon formatering, en "plain text" fil på svenska. Var hittar jag det? Ett förslag är ju att ladda ner massa artiklar från Wikipedia, men hur får jag texten i ren text?
-
- Inlägg: 6191
- Blev medlem: 14 jan 2007, 19:31
- OS: Ubuntu
- Utgåva: 22.10 Kinetic Kudu
- Ort: Stockholm
Re: Program för att identifiera språk?
Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?
Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic
Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic
Re: Program för att identifiera språk?
Jag tänkte att jag skulle ha ca 100 sidor text så därför hade det varit bra om det fanns en text på svenska som ren text utan formatering etc.Lars skrev:Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?
Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic
- Rasmus
- Inlägg: 2291
- Blev medlem: 07 sep 2006, 18:33
- OS: Ubuntu
- Utgåva: 24.04 Noble Numbat LTS
- Ort: Svalsta
Re: Program för att identifiera språk?
I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.
Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.
Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.
Re: Program för att identifiera språk?
Ja, det skapar ett diagram över vanliga ord. För att skapa en så bra statistik som möjligt så verkar det om man ska ha ren text. Helst en bok på svenska som .txt fil.Rasmus skrev:I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.
Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.
Re: Program för att identifiera språk?
Äsch, jag måste ha mer text. Programmet skiljer inte på tyska och svenska, inte ens mellan engelska och svenska.
Edit:
Jag löste det genom att ladda ner en ordlista på svenska från Aircracks FAQ.
Edit:
Jag löste det genom att ladda ner en ordlista på svenska från Aircracks FAQ.
- Rasmus
- Inlägg: 2291
- Blev medlem: 07 sep 2006, 18:33
- OS: Ubuntu
- Utgåva: 24.04 Noble Numbat LTS
- Ort: Svalsta
Re: Program för att identifiera språk?
räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen
Re: Program för att identifiera språk?
Jag har redan fått det att fungera med en ordlista från Aircracks FAQ. Tack iaf!Rasmus skrev:räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen
-
- Inlägg: 6191
- Blev medlem: 14 jan 2007, 19:31
- OS: Ubuntu
- Utgåva: 22.10 Kinetic Kudu
- Ort: Stockholm
Re: Program för att identifiera språk?
Bra att det löste sig.
Men jag kom på en annan bra källa till svenska texter, Projekt Runeberg. Där finns t.ex. Röda rummet och andra böcker som inte längre är upphovsrättsskyddade.
Men jag kom på en annan bra källa till svenska texter, Projekt Runeberg. Där finns t.ex. Röda rummet och andra böcker som inte längre är upphovsrättsskyddade.