Program för att identifiera språk? [LÖST]

Här diskuteras programmering och utveckling
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Program för att identifiera språk? [LÖST]

Inlägg av ubot »

Jag söker ett program (skript) som klarar av att identifiera vilket språk en text är på. Jag vet att Google har ett sådant verktyg, men vill helst inte vara beroende av Google utan ha en programvara som klarar samma sak med tillräckligt hög precision, dvs identifiera svenska, engelska, tyska från en text på kanske ca 100+ ord. Det bästa hade varit bra om "skriptet" klarade av att ta URLs så att det hade gått att läsa av en URL och sedan sortera länken efter språktyp.

Jag vill alltså kunna identifiera om en länk innehåller text på svenska, engelska eller något annat vanligt språk. det viktiga är svenska eller engelska.

Vad säger ni, finns det något färdigt till Linux som fixar det här eller måste jag koda ihop något skript?
Senast redigerad av 1 ubot, redigerad totalt 25 gånger.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Program för att identifiera språk?

Inlägg av ubot »

Jag har hittat två verktyg. Återstår att se om programmen fixar biffen.

http://ling.unizd.hr/~dcavar/LID/index.html
http://pear.php.net/package/Text_LanguageDetect/

Nu behöver jag en textfil på svenska för att skapa stöd för svenska. Finns det någon bra textfil, typ svenska.txt på Nätet? Jag behöver helt enkelt en massa text på svenska utan någon formatering, en "plain text" fil på svenska. Var hittar jag det? Ett förslag är ju att ladda ner massa artiklar från Wikipedia, men hur får jag texten i ren text?
Lars
Inlägg: 6191
Blev medlem: 14 jan 2007, 19:31
OS: Ubuntu
Utgåva: 22.10 Kinetic Kudu
Ort: Stockholm

Re: Program för att identifiera språk?

Inlägg av Lars »

Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?

Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Program för att identifiera språk?

Inlägg av ubot »

Lars skrev:Nästan text kan du få med länkar som http://sv.wikipedia.org/wiki/Ubuntu?action=raw, men du får ju med wiki-syntax också. Klipp och klistra fungerar väl annars?

Måste det vara text eller går det bra med en ordlista? En ordlista finns i filen /usr/share/myspell/dicts/sv_SE.dic
Jag tänkte att jag skulle ha ca 100 sidor text så därför hade det varit bra om det fanns en text på svenska som ren text utan formatering etc.
Användarvisningsbild
Rasmus
Inlägg: 2291
Blev medlem: 07 sep 2006, 18:33
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS
Ort: Svalsta

Re: Program för att identifiera språk?

Inlägg av Rasmus »

I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.

Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Program för att identifiera språk?

Inlägg av ubot »

Rasmus skrev:I listan Lars snackar om finns det 24490 ord (iaf. i karmic) vilket borde bli över hundra sidor text (2449 ord på varje sida, dessutom utan upprepningar)
Dock är nästan varje borde följt av / och en bokstavkombination tex. typexempel/CFS vilket i och för sid borde gå att lösa väldigt enkelt med sed genom att ha /* som mönster.

Om det är så att han letar ord och inte menings uppbyggnad borde det gå. Personligen gissar jag att den endast letar efter "svenska" ord i texten.
Ja, det skapar ett diagram över vanliga ord. För att skapa en så bra statistik som möjligt så verkar det om man ska ha ren text. Helst en bok på svenska som .txt fil.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Program för att identifiera språk?

Inlägg av ubot »

Äsch, jag måste ha mer text. Programmet skiljer inte på tyska och svenska, inte ens mellan engelska och svenska.

Edit:

Jag löste det genom att ladda ner en ordlista på svenska från Aircracks FAQ.
Användarvisningsbild
Rasmus
Inlägg: 2291
Blev medlem: 07 sep 2006, 18:33
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS
Ort: Svalsta

Re: Program för att identifiera språk?

Inlägg av Rasmus »

räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Program för att identifiera språk?

Inlägg av ubot »

Rasmus skrev:räcker bybrunnen på svenska wikipedia?
http://sv.wikipedia.org/wiki/Wikipedia:Bybrunnen
Jag har redan fått det att fungera med en ordlista från Aircracks FAQ. Tack iaf!
Lars
Inlägg: 6191
Blev medlem: 14 jan 2007, 19:31
OS: Ubuntu
Utgåva: 22.10 Kinetic Kudu
Ort: Stockholm

Re: Program för att identifiera språk?

Inlägg av Lars »

Bra att det löste sig.

Men jag kom på en annan bra källa till svenska texter, Projekt Runeberg. Där finns t.ex. Röda rummet och andra böcker som inte längre är upphovsrättsskyddade.
Skriv svar

Återgå till "Programmering och webbdesign"