Filtrera och blanda många RSS-flöden?
Filtrera och blanda många RSS-flöden?
Jag söker efter ett lämpligt sätt att typ dagligen importera kanske 50-500 RSS-flöden från olika sidor och sedan filtrera varje flöde utifrån vissa "keywords" och därefter sätta ihop alla passande poster i varje RSS-flöde till ett enda nytt RSS-flöde. Jag vill alltså skapa kanske 10-30 nya RSS-flöden där varje flöde är en blandning av mina ursprungliga 50-500 flöden baserat på vilket filter jag har för mina 10-30 flöden. Är det här möjligt och finns det i så fall något lämpligt program/tjänst för det?
Yahoo Pipes är liknande tjänst, men jag vill ju ha så många som 50-500 RSS-flöden där varje flöde ska passera 10-30 filter som är oberoende av varandra för att i slutändan generera 10-20 filtrerade RSS-flöden som resultat. Det kanske finns smidigare sätt att åstadkomma detta på än att använda Yahoo Pipes?
http://www.quickonlinetips.com/archives ... rss-feeds/
Det här är vad jag är ute efter:
rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 1 -> rss-flöde A
rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 2 -> rss-flöde B
rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 3 -> rss-flöde C
osv i upp till 30-50 ggr.
Filter 1, 2 och 3 är filter som filtrerar RSS-flödets innehåll, titel mm beroende på vissa keywords som utmärker varje filter.
Yahoo Pipes är liknande tjänst, men jag vill ju ha så många som 50-500 RSS-flöden där varje flöde ska passera 10-30 filter som är oberoende av varandra för att i slutändan generera 10-20 filtrerade RSS-flöden som resultat. Det kanske finns smidigare sätt att åstadkomma detta på än att använda Yahoo Pipes?
http://www.quickonlinetips.com/archives ... rss-feeds/
Det här är vad jag är ute efter:
rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 1 -> rss-flöde A
rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 2 -> rss-flöde B
rss-flöde 1 + rss-flöde 2 + rss-flöde 3 + ... + rss-flöde 500 -> filter 3 -> rss-flöde C
osv i upp till 30-50 ggr.
Filter 1, 2 och 3 är filter som filtrerar RSS-flödets innehåll, titel mm beroende på vissa keywords som utmärker varje filter.
Re: Filtrera och blanda många RSS-flöden?
Hm, ingen som har någon idé? Jag tycker det är lite konstigt om det inte finns en sådan här tjänst/programvara? 

- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
RSS är ju vanliga xml-filer. Det är väl bara att smälla ihop dem till en ny stor xml-fil och peka ditt filer på den ihopslagna filen istället?
Re: Filtrera och blanda många RSS-flöden?
Hm, kanske det. Det har jag inte tänkt på. Det borde vara smartare att slå ihop alla först som du säger och sedan applicera 10-50 olika filter. Hur gör man det bäst tror du? Slår ihop och framförallt filtrerar stora rss-flöden?Konservburk skrev:RSS är ju vanliga xml-filer. Det är väl bara att smälla ihop dem till en ny stor xml-fil och peka ditt filer på den ihopslagna filen istället?
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
Du alltså inget program som kan filtrerar xml-filer åt dig?ubot skrev:Hm, kanske det. Det har jag inte tänkt på. Det borde vara smartare att slå ihop alla först som du säger och sedan applicera 10-50 olika filter. Hur gör man det bäst tror du? Slår ihop och framförallt filtrerar stora rss-flöden?
Smälla ihop filerna kan man göra med några kommandon. Men man vill nog inte slå ihop mer än själva kroppen, och sedan se till så att man får ett lämpligt huvud och en lämplig fot till den nya xml-filen. Nu vet jag inte exakt vad rss-standarden säger, men jag tycker att det borde räcka med att slå ihop alla <item>-taggar till den nya kroppen.
Re: Filtrera och blanda många RSS-flöden?
Hm, tyvärr är det här lite heavy stuff för mig. Jag är ändå ganska grön på att arbeta med kommandon och måste erkänna att jag är ganska novis på det här med hur RSS är uppbyggt. Det bästa hade ju varit något program med ett grafiskt gränssnitt, men om det inte kräver alltför mycket kommandokunskap så är jag inte främmande för att fixa det utan grafiskt gränssnitt. Tanken är ju sedan att jag ska publicera mina filtrerade RSS-flöden på Internet. Fast då ska alla flöden (eller mitt stora ihopslagna flöde) gå igenom mina filter först på ett smart och effektivt vis.Konservburk skrev:Du alltså inget program som kan filtrerar xml-filer åt dig?ubot skrev:Hm, kanske det. Det har jag inte tänkt på. Det borde vara smartare att slå ihop alla först som du säger och sedan applicera 10-50 olika filter. Hur gör man det bäst tror du? Slår ihop och framförallt filtrerar stora rss-flöden?
Smälla ihop filerna kan man göra med några kommandon. Men man vill nog inte slå ihop mer än själva kroppen, och sedan se till så att man får ett lämpligt huvud och en lämplig fot till den nya xml-filen. Nu vet jag inte exakt vad rss-standarden säger, men jag tycker att det borde räcka med att slå ihop alla <item>-taggar till den nya kroppen.
- micke_nordin
- Inlägg: 1539
- Blev medlem: 21 aug 2008, 17:03
- OS: Ubuntu
- Utgåva: 22.10 Kinetic Kudu
- Kontakt:
Re: Filtrera och blanda många RSS-flöden?
Om du vill lära dig mer kan ju börja med att kolla på hur en rss-fil ser ut:ubot skrev: Hm, tyvärr är det här lite heavy stuff för mig. Jag är ändå ganska grön på att arbeta med kommandon och måste erkänna att jag är ganska novis på det här med hur RSS är uppbyggt.
Kod: Markera allt
wget http://rss.slashdot.org/Slashdot/slashdotLinux
gedit slashdotLinux

- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
Då kanske du skulle ha lagt tråden under program istället för under programmering.ubot skrev:Hm, tyvärr är det här lite heavy stuff för mig. Jag är ändå ganska grön på att arbeta med kommandon och måste erkänna att jag är ganska novis på det här med hur RSS är uppbyggt. Det bästa hade ju varit något program med ett grafiskt gränssnitt.

Det är mycket möjligt att det redan finns program med grafiska gränssnitt som klarar av sånt här. Men jag använder inte rss speciellt ofta, så jag känner inte till något.
Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.ubot skrev:men om det inte kräver alltför mycket kommandokunskap så är jag inte främmande för att fixa det utan grafiskt gränssnitt. Tanken är ju sedan att jag ska publicera mina filtrerade RSS-flöden på Internet.
Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?ubot skrev:Fast då ska alla flöden (eller mitt stora ihopslagna flöde) gå igenom mina filter först på ett smart och effektivt vis.
- micke_nordin
- Inlägg: 1539
- Blev medlem: 21 aug 2008, 17:03
- OS: Ubuntu
- Utgåva: 22.10 Kinetic Kudu
- Kontakt:
Re: Filtrera och blanda många RSS-flöden?
Jag har skrivit ett program som söker igenom Wikipedia-dumpar (eller egentligen vilken dump som helst från MediaWiki), de är också xml-filer. Det programmet letar efter nyckelord i texten och sparar sedan namnet på alla sidor som har nyckelordet i texten. Här skulle man ju kunna göra något liknande, söka igenom en stor ihopslagen rss-fil och spara alla items som matchar alla sökord, sökningen kan sedan begränsas till bara titeln eller till både titeln och beskrivningen.
/Micke
/Micke

Re: Filtrera och blanda många RSS-flöden?
Inte gå igenom mina filer utan gå igenom mina filter. Mina ihopslagna RSS-flöden ska ju filtreras innan dom publiceras.Konservburk skrev:Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Re: Filtrera och blanda många RSS-flöden?
Det låter inte så dumt. Jag vill kunna filtrera på valfria ord, men samtidigt kommer nog mina filter filtrera på ungefär samma ord varje gång, typ filtrera ut alla poster ur ett RSS-flöde som innehåller ord som Linux, Ubuntu, Windows etc i RSS-flödets titlar, textinnehåll, taggar eller liknande.micke_nordin skrev:Jag har skrivit ett program som söker igenom Wikipedia-dumpar (eller egentligen vilken dump som helst från MediaWiki), de är också xml-filer. Det programmet letar efter nyckelord i texten och sparar sedan namnet på alla sidor som har nyckelordet i texten. Här skulle man ju kunna göra något liknande, söka igenom en stor ihopslagen rss-fil och spara alla items som matchar alla sökord, sökningen kan sedan begränsas till bara titeln eller till både titeln och beskrivningen.
/Micke
Sökningen måste omfatta även beskrivningen för titeln är många gånger faktiskt ganska intetsägande.
Senast redigerad av 1 ubot, redigerad totalt 9 gånger.
Re: Filtrera och blanda många RSS-flöden?
Tja, ta för enkelhets skull Lifehackers och Download Squads RSS-flösen:Konservburk skrev:Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
http://feeds.gawker.com/lifehacker/full
http://feeds.feedburner.com/weblogsinc/downloadsquad
Kom ihåg att det handlar egentligen om kanske 500 RSS-flöden som ska slås ihop till ett eller några få nya RSS-flöden som sedan ska filtreras till att till slut bli kanske totalt 10-50 nya flöden beroende på innehåll som Windows, Linux, Software, Wallpapers, mm.
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
Skrivfel av mig... jag menade såklart filter. Frågan är fortfarande om du har något grafiskt program som filtrerar åt dig? Eller om du vet hur du vill filtrera, men inte hur du ska göra?ubot skrev:Inte gå igenom mina filer utan gå igenom mina filter. Mina ihopslagna RSS-flöden ska ju filtreras innan dom publiceras.Konservburk skrev:Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Re: Filtrera och blanda många RSS-flöden?
Jag vet hur jag vill filtrera, men inte hur jag ska gå tillväga. Det finns ju tjänster på nätet, typ Yahoo Pipes som jag länkade till, men det kanske är en mindre smidig tjänst. Det kanske går att filtrera effektivare och smartare. Vi ska komma ihåg att vi talar om kanske 500 RSS-flöden som ska slås ihop till ett och gå igenom kanske 10 olika filter som är mer eller mindre oberoende av varandra.Konservburk skrev:Skrivfel av mig... jag menade såklart filter. Frågan är fortfarande om du har något grafiskt program som filtrerar åt dig? Eller om du vet hur du vill filtrera, men inte hur du ska göra?ubot skrev:Inte gå igenom mina filer utan gå igenom mina filter. Mina ihopslagna RSS-flöden ska ju filtreras innan dom publiceras.Konservburk skrev:Vad menar du med "gå igenom dina filer"? Har du något grafiskt program som redan ordnar det? Eller är det bara så att du vet hur du vill filtera, men inte hur du ska göra?
Tex Lifehacker skriver ju om lite allt möjligt. Jag vill filtrera Lifehackers och några hundra andra RSS-flöden utifrån postningar som handlar om tex Ubuntu, Linux, Windows, Software osv. Det bästa är nog att slå ihop typ 500 RSS-flöden som du skrev först av allt och sedan applicera typ 10-50 olika filter beroende på vilket slutligt RSS-flöde jag vill ha. Jag vill som sagt ha kanske 10-50 nya RSS-flöden av mina ursprungliga 500 RSS-flöden där vart och ett av mina 10-50 st nya flöden ska bestå av en blandning av alla 500 och som ska innehålla länkar som bara stämmer med mina filtreringskriterier.
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
Jag fixade ihop ett väldigt ointelligent skript som smäller ihop hur många som helst. Men man vill antagligen på något sätt sortera <item>-blocken efter tid också, vilket jag struntade helt i:ubot skrev:Tja, ta för enkelhets skull Lifehackers och Download Squads RSS-flösen:Konservburk skrev:Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
http://feeds.gawker.com/lifehacker/full
http://feeds.feedburner.com/weblogsinc/downloadsquad
Kom ihåg att det handlar egentligen om kanske 500 RSS-flöden som ska slås ihop till ett eller några få
Kod: Markera allt
#!/bin/bash
rss=(
"http://feeds.gawker.com/lifehacker/full"
"http://feeds.feedburner.com/weblogsinc/downloadsquad"
)
for rss in "${rss[@]}"
do wget -qO- "$rss" |
sed 's/<\/\?item[^>]*>/\n\0\n/' >/tmp/rss.xml
if ((i++))
then
sed -n '/<item[^>]*>/,/<\/item[^>]*>/p' </tmp/rss.xml >>/tmp/rss_head.xml
else
sed -n '/<item[^>]*>/q;p' </tmp/rss.xml >/tmp/rss_head.xml
sed -n '/<item[^>]*>/,$p' </tmp/rss.xml >/tmp/rss_body.xml
fi
done
cat /tmp/rss_head.xml /tmp/rss_body.xml >/tmp/rss.xml
rm -f /tmp/rss_head.xml /tmp/rss_body.xml
Re: Filtrera och blanda många RSS-flöden?
Aha, tackar. Varför vill man sortera item-blocken efter en tid? Varför är skriptet "ointelligent" och hur använder man det på sitt webbhotell egentligen?Konservburk skrev:Jag fixade ihop ett väldigt ointelligent skript som smäller ihop hur många som helst. Men man vill antagligen på något sätt sortera <item>-blocken efter tid också, vilket jag struntade helt i:ubot skrev:Tja, ta för enkelhets skull Lifehackers och Download Squads RSS-flösen:Konservburk skrev:Om du ger exempel på minst två rss-länkar du använder så kan jag se om det verkar lätt att slå ihop dem till en ny xml-fil.
http://feeds.gawker.com/lifehacker/full
http://feeds.feedburner.com/weblogsinc/downloadsquad
Kom ihåg att det handlar egentligen om kanske 500 RSS-flöden som ska slås ihop till ett eller några få
Kod: Markera allt
#!/bin/bash rss=( "http://feeds.gawker.com/lifehacker/full" "http://feeds.feedburner.com/weblogsinc/downloadsquad" ) for rss in "${rss[@]}" do wget -qO- "$rss" | sed 's/<\/\?item[^>]*>/\n\0\n/' >/tmp/rss.xml if ((i++)) then sed -n '/<item[^>]*>/,/<\/item[^>]*>/p' </tmp/rss.xml >>/tmp/rss_head.xml else sed -n '/<item[^>]*>/q;p' </tmp/rss.xml >/tmp/rss_head.xml sed -n '/<item[^>]*>/,$p' </tmp/rss.xml >/tmp/rss_body.xml fi done cat /tmp/rss_head.xml /tmp/rss_body.xml >/tmp/rss.xml rm -f /tmp/rss_head.xml /tmp/rss_body.xml
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
Därför att rss brukar vara sorterat med nyaste <item>-blocket först. Jag antar att vissa rss-läsare till och med räknar med att det är så.ubot skrev:Aha, tackar. Varför vill man sortera item-blocken efter en tid?
Eftersom den bara slår ihop allting utan att försäkra sig om att resultatet verkligen är ett godkänt xml/rss-dokument.ubot skrev:Varför är skriptet "ointelligent"
Det beror nog på vad man har för webbhotel kan jag tänka mig.ubot skrev:och hur använder man det på sitt webbhotell egentligen?
Re: Filtrera och blanda många RSS-flöden?
Det som är det riktigt kluriga i sammanhanget är väl egentligen hur man ska filtrera RSS-flödena på ett smart och effektivt vis. Jag vill ju på ett så bra vis som möjligt kunna sortera innehållet i RSS-flödet rån kanske 500 bloggar/nyhetsiter utifrån vad artiklarna handlar om, typ Linux, Windows, Software mm. detta för att sedan kunna återge ett fåtal (10-50 st) RSS-flöden sorterade på "ämne" men med innehåll från flera hundra av alla ursprungliga flöden.
Re: Filtrera och blanda många RSS-flöden?
Mhm, jag har Binero webbhotell och deras UNIX-variant (kommer ej ihåg vilket) av OS. Jaha, då måste jag ju på något vis sortera och validera RSS-flödet efteråt. Fast den stora nöten att knäcka är annars själva filtreringen.Konservburk skrev:Därför att rss brukar vara sorterat med nyaste <item>-blocket först. Jag antar att vissa rss-läsare till och med räknar med att det är så.ubot skrev:Aha, tackar. Varför vill man sortera item-blocken efter en tid?
Eftersom den bara slår ihop allting utan att försäkra sig om att resultatet verkligen är ett godkänt xml/rss-dokument.ubot skrev:Varför är skriptet "ointelligent"
Det beror nog på vad man har för webbhotel kan jag tänka mig.ubot skrev:och hur använder man det på sitt webbhotell egentligen?
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Filtrera och blanda många RSS-flöden?
En filtrering är löjligt mycket lättare än att sortera. I princip räcker det med grep -i linux så får du bara med saker som handlar om linux.ubot skrev:Fast den stora nöten att knäcka är annars själva filtreringen.