Filtrera och blanda många RSS-flöden?

Här diskuteras programmering och utveckling
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Jag söker efter ett lämpligt sätt att typ dagligen importera kanske 50-500 RSS-flöden från olika sidor och sedan filtrera varje flöde utifrån vissa "keywords" och därefter sätta ihop alla passande poster i varje RSS-flöde till ett enda nytt RSS-flöde. Jag vill alltså skapa kanske 10-30 nya RSS-flöden där varje flöde är en blandning av mina ursprungliga 50-500 flöden baserat på vilket filter jag har för mina 10-30 flöden. Är det här möjligt och finns det i så fall något lämpligt program/tjänst för det?

Yahoo Pipes är liknande tjänst, men jag vill ju ha så många som 50-500 RSS-flöden där varje flöde ska passera 10-30 filter som är oberoende av varandra för att i slutändan generera 10-20 filtrerade RSS-flöden som resultat. Det kanske finns smidigare sätt att åstadkomma detta på än att använda Yahoo Pipes?

http://www.quickonlinetips.com/archives ... rss-feeds/

Det här är vad jag är ute efter:

rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 1 -> rss-flöde A

rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 2 -> rss-flöde B

rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 3 -> rss-flöde C

osv i upp till 30-50 ggr.

Filter 1, 2 och 3 är filter som filtrerar RSS-flödets innehåll, titel mm beroende på vissa keywords som utmärker varje filter.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Hm, ingen som har någon idé? Jag tycker det är lite konstigt om det inte finns en sådan här tjänst/programvara? :-\
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

RSS är ju vanliga xml-filer. Det är väl bara att smälla ihop dem till en ny stor xml-fil och peka ditt filer på den ihopslagna filen istället?
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:RSS är ju vanliga xml-filer. Det är väl bara att smälla ihop dem till en ny stor xml-fil och peka ditt filer på den ihopslagna filen istället?
Hm, kanske det. Det har jag inte tänkt på. Det borde vara smartare att slå ihop alla först som du säger och sedan applicera 10-50 olika filter. Hur gör man det bäst tror du? Slår ihop och framförallt filtrerar stora rss-flöden?
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

ubot skrev:Hm, kanske det. Det har jag inte tänkt på. Det borde vara smartare att slå ihop alla först som du säger och sedan applicera 10-50 olika filter. Hur gör man det bäst tror du? Slår ihop och framförallt filtrerar stora rss-flöden?
Du alltså inget program som kan filtrerar xml-filer åt dig?

Smälla ihop filerna kan man göra med några kommandon. Men man vill nog inte slå ihop mer än själva kroppen, och sedan se till så att man får ett lämpligt huvud och en lämplig fot till den nya xml-filen. Nu vet jag inte exakt vad rss-standarden säger, men jag tycker att det borde räcka med att slå ihop alla <item>-taggar till den nya kroppen.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:
ubot skrev:Hm, kanske det. Det har jag inte tänkt på. Det borde vara smartare att slå ihop alla först som du säger och sedan applicera 10-50 olika filter. Hur gör man det bäst tror du? Slår ihop och framförallt filtrerar stora rss-flöden?
Du alltså inget program som kan filtrerar xml-filer åt dig?

Smälla ihop filerna kan man göra med några kommandon. Men man vill nog inte slå ihop mer än själva kroppen, och sedan se till så att man får ett lämpligt huvud och en lämplig fot till den nya xml-filen. Nu vet jag inte exakt vad rss-standarden säger, men jag tycker att det borde räcka med att slå ihop alla <item>-taggar till den nya kroppen.
Hm, tyvärr är det här lite heavy stuff för mig. Jag är ändå ganska grön på att arbeta med kommandon och måste erkänna att jag är ganska novis på det här med hur RSS är uppbyggt. Det bästa hade ju varit något program med ett grafiskt gränssnitt, men om det inte kräver alltför mycket kommandokunskap så är jag inte främmande för att fixa det utan grafiskt gränssnitt. Tanken är ju sedan att jag ska publicera mina filtrerade RSS-flöden på Internet. Fast då ska alla flöden (eller mitt stora ihopslagna flöde) gå igenom mina filter först på ett smart och effektivt vis.
Användarvisningsbild
micke_nordin
Inlägg: 1539
Blev medlem: 21 aug 2008, 17:03
OS: Ubuntu
Utgåva: 22.10 Kinetic Kudu
Kontakt:

Re: Filtrera och blanda många RSS-flöden?

Inlägg av micke_nordin »

ubot skrev: Hm, tyvärr är det här lite heavy stuff för mig. Jag är ändå ganska grön på att arbeta med kommandon och måste erkänna att jag är ganska novis på det här med hur RSS är uppbyggt.
Om du vill lära dig mer kan ju börja med att kolla på hur en rss-fil ser ut:

Kod: Markera allt

wget http://rss.slashdot.org/Slashdot/slashdotLinux
gedit slashdotLinux 
/Micke
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

ubot skrev:Hm, tyvärr är det här lite heavy stuff för mig. Jag är ändå ganska grön på att arbeta med kommandon och måste erkänna att jag är ganska novis på det här med hur RSS är uppbyggt. Det bästa hade ju varit något program med ett grafiskt gränssnitt.
Då kanske du skulle ha lagt tråden under program istället för under programmering. ;)

Det är mycket möjligt att det redan finns program med grafiska gränssnitt som klarar av sånt här. Men jag använder inte rss speciellt ofta, så jag känner inte till något.
ubot skrev:men om det inte kräver alltför mycket kommandokunskap så är jag inte främmande för att fixa det utan grafiskt gränssnitt. Tanken är ju sedan att jag ska publicera mina filtrerade RSS-flöden på Internet.
Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
ubot skrev:Fast då ska alla flöden (eller mitt stora ihopslagna flöde) gå igenom mina filter först på ett smart och effektivt vis.
Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Användarvisningsbild
micke_nordin
Inlägg: 1539
Blev medlem: 21 aug 2008, 17:03
OS: Ubuntu
Utgåva: 22.10 Kinetic Kudu
Kontakt:

Re: Filtrera och blanda många RSS-flöden?

Inlägg av micke_nordin »

Jag har skrivit ett program som söker igenom Wikipedia-dumpar (eller egentligen vilken dump som helst från MediaWiki), de är också xml-filer. Det programmet letar efter nyckelord i texten och sparar sedan namnet på alla sidor som har nyckelordet i texten. Här skulle man ju kunna göra något liknande, söka igenom en stor ihopslagen rss-fil och spara alla items som matchar alla sökord, sökningen kan sedan begränsas till bara titeln eller till både titeln och beskrivningen.

/Micke
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Inte gå igenom mina filer utan gå igenom mina filter. Mina ihopslagna RSS-flöden ska ju filtreras innan dom publiceras.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

micke_nordin skrev:Jag har skrivit ett program som söker igenom Wikipedia-dumpar (eller egentligen vilken dump som helst från MediaWiki), de är också xml-filer. Det programmet letar efter nyckelord i texten och sparar sedan namnet på alla sidor som har nyckelordet i texten. Här skulle man ju kunna göra något liknande, söka igenom en stor ihopslagen rss-fil och spara alla items som matchar alla sökord, sökningen kan sedan begränsas till bara titeln eller till både titeln och beskrivningen.

/Micke
Det låter inte så dumt. Jag vill kunna filtrera på valfria ord, men samtidigt kommer nog mina filter filtrera på ungefär samma ord varje gång, typ filtrera ut alla poster ur ett RSS-flöde som innehåller ord som Linux, Ubuntu, Windows etc i RSS-flödets titlar, textinnehåll, taggar eller liknande.

Sökningen måste omfatta även beskrivningen för titeln är många gånger faktiskt ganska intetsägande.
Senast redigerad av 1 ubot, redigerad totalt 9 gånger.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
Tja, ta för enkelhets skull Lifehackers och Download Squads RSS-flösen:

http://feeds.gawker.com/lifehacker/full
http://feeds.feedburner.com/weblogsinc/downloadsquad

Kom ihåg att det handlar egentligen om kanske 500 RSS-flöden som ska slås ihop till ett eller några få nya RSS-flöden som sedan ska filtreras till att till slut bli kanske totalt 10-50 nya flöden beroende på innehåll som Windows, Linux, Software, Wallpapers, mm.
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

ubot skrev:
Konservburk skrev:Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Inte gå igenom mina filer utan gå igenom mina filter. Mina ihopslagna RSS-flöden ska ju filtreras innan dom publiceras.
Skrivfel av mig... jag menade såklart filter. Frågan är fortfarande om du har något grafiskt program som filtrerar åt dig? Eller om du vet hur du vill filtrera, men inte hur du ska göra?
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:
ubot skrev:
Konservburk skrev:Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Inte gå igenom mina filer utan gå igenom mina filter. Mina ihopslagna RSS-flöden ska ju filtreras innan dom publiceras.
Skrivfel av mig... jag menade såklart filter. Frågan är fortfarande om du har något grafiskt program som filtrerar åt dig? Eller om du vet hur du vill filtrera, men inte hur du ska göra?
Jag vet hur jag vill filtrera, men inte hur jag ska gå tillväga. Det finns ju tjänster på nätet, typ Yahoo Pipes som jag länkade till, men det kanske är en mindre smidig tjänst. Det kanske går att filtrera effektivare och smartare. Vi ska komma ihåg att vi talar om kanske 500 RSS-flöden som ska slås ihop till ett och gå igenom kanske 10 olika filter som är mer eller mindre oberoende av varandra.

Tex Lifehacker skriver ju om lite allt möjligt. Jag vill filtrera Lifehackers och några hundra andra RSS-flöden utifrån postningar som handlar om tex Ubuntu, Linux, Windows, Software osv. Det bästa är nog att slå ihop typ 500 RSS-flöden som du skrev först av allt och sedan applicera typ 10-50 olika filter beroende på vilket slutligt RSS-flöde jag vill ha. Jag vill som sagt ha kanske 10-50 nya RSS-flöden av mina ursprungliga 500 RSS-flöden där vart och ett av mina 10-50 st nya flöden ska bestå av en blandning av alla 500 och som ska innehålla länkar som bara stämmer med mina filtreringskriterier.
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

ubot skrev:
Konservburk skrev:Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
Tja, ta för enkelhets skull Lifehackers och Download Squads RSS-flösen:

http://feeds.gawker.com/lifehacker/full
http://feeds.feedburner.com/weblogsinc/downloadsquad

Kom ihåg att det handlar egentligen om kanske 500 RSS-flöden som ska slås ihop till ett eller några få
Jag fixade ihop ett väldigt ointelligent skript som smäller ihop hur många som helst. Men man vill antagligen på något sätt sortera <item>-blocken efter tid också, vilket jag struntade helt i:

Kod: Markera allt

#!/bin/bash

rss=(
"http://feeds.gawker.com/lifehacker/full"
"http://feeds.feedburner.com/weblogsinc/downloadsquad"
)

for rss in "${rss[@]}"
do wget -qO- "$rss" |
   sed 's/<\/\?item[^>]*>/\n\0\n/' >/tmp/rss.xml
   if ((i++))
   then
      sed -n '/<item[^>]*>/,/<\/item[^>]*>/p' </tmp/rss.xml >>/tmp/rss_head.xml
   else
      sed -n '/<item[^>]*>/q;p' </tmp/rss.xml >/tmp/rss_head.xml
      sed -n '/<item[^>]*>/,$p' </tmp/rss.xml >/tmp/rss_body.xml
   fi
done
cat /tmp/rss_head.xml /tmp/rss_body.xml >/tmp/rss.xml
rm -f /tmp/rss_head.xml /tmp/rss_body.xml
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:
ubot skrev:
Konservburk skrev:Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
Tja, ta för enkelhets skull Lifehackers och Download Squads RSS-flösen:

http://feeds.gawker.com/lifehacker/full
http://feeds.feedburner.com/weblogsinc/downloadsquad

Kom ihåg att det handlar egentligen om kanske 500 RSS-flöden som ska slås ihop till ett eller några få
Jag fixade ihop ett väldigt ointelligent skript som smäller ihop hur många som helst. Men man vill antagligen på något sätt sortera <item>-blocken efter tid också, vilket jag struntade helt i:

Kod: Markera allt

#!/bin/bash

rss=(
"http://feeds.gawker.com/lifehacker/full"
"http://feeds.feedburner.com/weblogsinc/downloadsquad"
)

for rss in "${rss[@]}"
do wget -qO- "$rss" |
   sed 's/<\/\?item[^>]*>/\n\0\n/' >/tmp/rss.xml
   if ((i++))
   then
      sed -n '/<item[^>]*>/,/<\/item[^>]*>/p' </tmp/rss.xml >>/tmp/rss_head.xml
   else
      sed -n '/<item[^>]*>/q;p' </tmp/rss.xml >/tmp/rss_head.xml
      sed -n '/<item[^>]*>/,$p' </tmp/rss.xml >/tmp/rss_body.xml
   fi
done
cat /tmp/rss_head.xml /tmp/rss_body.xml >/tmp/rss.xml
rm -f /tmp/rss_head.xml /tmp/rss_body.xml
Aha, tackar. Varför vill man sortera item-blocken efter en tid? Varför är skriptet "ointelligent" och hur använder man det på sitt webbhotell egentligen?
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

ubot skrev:Aha, tackar. Varför vill man sortera item-blocken efter en tid?
Därför att rss brukar vara sorterat med nyaste <item>-blocket först. Jag antar att vissa rss-läsare till och med räknar med att det är så.
ubot skrev:Varför är skriptet "ointelligent"
Eftersom den bara slår ihop allting utan att försäkra sig om att resultatet verkligen är ett godkänt xml/rss-dokument.
ubot skrev:och hur använder man det på sitt webbhotell egentligen?
Det beror nog på vad man har för webbhotel kan jag tänka mig.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Det som är det riktigt kluriga i sammanhanget är väl egentligen hur man ska filtrera RSS-flödena på ett smart och effektivt vis. Jag vill ju på ett så bra vis som möjligt kunna sortera innehållet i RSS-flödet rån kanske 500 bloggar/nyhetsiter utifrån vad artiklarna handlar om, typ Linux, Windows, Software mm. detta för att sedan kunna återge ett fåtal (10-50 st) RSS-flöden sorterade på "ämne" men med innehåll från flera hundra av alla ursprungliga flöden.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Filtrera och blanda många RSS-flöden?

Inlägg av ubot »

Konservburk skrev:
ubot skrev:Aha, tackar. Varför vill man sortera item-blocken efter en tid?
Därför att rss brukar vara sorterat med nyaste <item>-blocket först. Jag antar att vissa rss-läsare till och med räknar med att det är så.
ubot skrev:Varför är skriptet "ointelligent"
Eftersom den bara slår ihop allting utan att försäkra sig om att resultatet verkligen är ett godkänt xml/rss-dokument.
ubot skrev:och hur använder man det på sitt webbhotell egentligen?
Det beror nog på vad man har för webbhotel kan jag tänka mig.
Mhm, jag har Binero webbhotell och deras UNIX-variant (kommer ej ihåg vilket) av OS. Jaha, då måste jag ju på något vis sortera och validera RSS-flödet efteråt. Fast den stora nöten att knäcka är annars själva filtreringen.
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Filtrera och blanda många RSS-flöden?

Inlägg av Konservburk »

ubot skrev:Fast den stora nöten att knäcka är annars själva filtreringen.
En filtrering är löjligt mycket lättare än att sortera. I princip räcker det med grep -i linux så får du bara med saker som handlar om linux.
Skriv svar

Återgå till "Programmering och webbdesign"