Hitta "replacement character" i text

Konservburk · Inlägg av **Konservburk** » 14 nov 2009, 01:37

ubot skrev:Nej, det går nog inte att lita på mb_detect_encoding(). Den säger ISO-8859-1 om en länk som är UTF-8. Det var inte, bra alls.

Här är länken som mb_detect_encoding() säger är ISO-8859-1 är egentligen UTF-8 vilket sabbar teckenkodningen:

http://www.newsmill.se/artikel/2009/11/ ... llas-hemma

Den där länken har en blandning av utf8 och iso8859-1. När det är blandat måste man anta att det är iso8859-1 som gäller eftersom utf8 delarna fortfarande är giltiga då. Det går inte att anta utf8 eftersom iso8859-1-delarna är helt ogiltiga som utf8-sekvenser.

ubot · Inlägg av **ubot** » 14 nov 2009, 03:00

Konservburk skrev:
ubot skrev:Nej, det går nog inte att lita på mb_detect_encoding(). Den säger ISO-8859-1 om en länk som är UTF-8. Det var inte, bra alls.

Här är länken som mb_detect_encoding() säger är ISO-8859-1 är egentligen UTF-8 vilket sabbar teckenkodningen:

http://www.newsmill.se/artikel/2009/11/ ... llas-hemma
Den där länken har en blandning av utf8 och iso8859-1. När det är blandat måste man anta att det är iso8859-1 som gäller eftersom utf8 delarna fortfarande är giltiga då. Det går inte att anta utf8 eftersom iso8859-1-delarna är helt ogiltiga som utf8-sekvenser.

Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.

Konservburk · Inlägg av **Konservburk** » 14 nov 2009, 09:29

ubot skrev:Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.

Blandad teckenkodning är ogiltig som utf8, och det är knappast meningen att den ska vara blandad, utan det är de som har gjort den där sidan som har klantat sig.

Om det bara är åäöÅÖÄ du bryr dig om så kan du kanske skriva en egen funktion som som klarar av att göra om blandad teckenkodning till utf8.

ubot · Inlägg av **ubot** » 14 nov 2009, 11:42

Konservburk skrev:
ubot skrev:Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.
Blandad teckenkodning är ogiltig som utf8, och det är knappast meningen att den ska vara blandad, utan det är de som har gjort den där sidan som har klantat sig.

Om det bara är åäöÅÖÄ du bryr dig om så kan du kanske skriva en egen funktion som som klarar av att göra om blandad teckenkodning till utf8.

Puh, det vet jag inte om jag klarar på egen hand. Då får jag ha lite bra anvisningar för hur jag ska göra. Det är iofs mest å, ä och ö som blir fel eftersom jag mest har att göra med svensk text, men bara metoden går att anpassa till även andra tecken om det skulle behövas längre fram så är det en lösning som duger.

Klantat sig? Och den sajten ska vara nominerad till Stora Journalistpriset, tss.

Ubuntu Sverige

Hitta "replacement character" i text

Re: Hitta "replacement character" i text

Re: Hitta "replacement character" i text

Re: Hitta "replacement character" i text

Re: Hitta "replacement character" i text