Den där länken har en blandning av utf8 och iso8859-1. När det är blandat måste man anta att det är iso8859-1 som gäller eftersom utf8 delarna fortfarande är giltiga då. Det går inte att anta utf8 eftersom iso8859-1-delarna är helt ogiltiga som utf8-sekvenser.ubot skrev:Nej, det går nog inte att lita på mb_detect_encoding(). Den säger ISO-8859-1 om en länk som är UTF-8. Det var inte, bra alls.
Här är länken som mb_detect_encoding() säger är ISO-8859-1 är egentligen UTF-8 vilket sabbar teckenkodningen:
http://www.newsmill.se/artikel/2009/11/ ... llas-hemma
Hitta "replacement character" i text
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Hitta "replacement character" i text
Re: Hitta "replacement character" i text
Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.Konservburk skrev:Den där länken har en blandning av utf8 och iso8859-1. När det är blandat måste man anta att det är iso8859-1 som gäller eftersom utf8 delarna fortfarande är giltiga då. Det går inte att anta utf8 eftersom iso8859-1-delarna är helt ogiltiga som utf8-sekvenser.ubot skrev:Nej, det går nog inte att lita på mb_detect_encoding(). Den säger ISO-8859-1 om en länk som är UTF-8. Det var inte, bra alls.
Här är länken som mb_detect_encoding() säger är ISO-8859-1 är egentligen UTF-8 vilket sabbar teckenkodningen:
http://www.newsmill.se/artikel/2009/11/ ... llas-hemma
- Konservburk
- Inlägg: 5919
- Blev medlem: 07 apr 2007, 22:28
Re: Hitta "replacement character" i text
Blandad teckenkodning är ogiltig som utf8, och det är knappast meningen att den ska vara blandad, utan det är de som har gjort den där sidan som har klantat sig.ubot skrev:Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.
Om det bara är åäöÅÖÄ du bryr dig om så kan du kanske skriva en egen funktion som som klarar av att göra om blandad teckenkodning till utf8.
Re: Hitta "replacement character" i text
Puh, det vet jag inte om jag klarar på egen hand. Då får jag ha lite bra anvisningar för hur jag ska göra. Det är iofs mest å, ä och ö som blir fel eftersom jag mest har att göra med svensk text, men bara metoden går att anpassa till även andra tecken om det skulle behövas längre fram så är det en lösning som duger.Konservburk skrev:Blandad teckenkodning är ogiltig som utf8, och det är knappast meningen att den ska vara blandad, utan det är de som har gjort den där sidan som har klantat sig.ubot skrev:Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.
Om det bara är åäöÅÖÄ du bryr dig om så kan du kanske skriva en egen funktion som som klarar av att göra om blandad teckenkodning till utf8.
Klantat sig? Och den sajten ska vara nominerad till Stora Journalistpriset, tss.
