Hitta "replacement character" i text

Här diskuteras programmering och utveckling
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Hitta "replacement character" i text

Inlägg av Konservburk »

ubot skrev:Nej, det går nog inte att lita på mb_detect_encoding(). Den säger ISO-8859-1 om en länk som är UTF-8. Det var inte, bra alls.

Här är länken som mb_detect_encoding() säger är ISO-8859-1 är egentligen UTF-8 vilket sabbar teckenkodningen:

http://www.newsmill.se/artikel/2009/11/ ... llas-hemma
Den där länken har en blandning av utf8 och iso8859-1. När det är blandat måste man anta att det är iso8859-1 som gäller eftersom utf8 delarna fortfarande är giltiga då. Det går inte att anta utf8 eftersom iso8859-1-delarna är helt ogiltiga som utf8-sekvenser.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Hitta "replacement character" i text

Inlägg av ubot »

Konservburk skrev:
ubot skrev:Nej, det går nog inte att lita på mb_detect_encoding(). Den säger ISO-8859-1 om en länk som är UTF-8. Det var inte, bra alls.

Här är länken som mb_detect_encoding() säger är ISO-8859-1 är egentligen UTF-8 vilket sabbar teckenkodningen:

http://www.newsmill.se/artikel/2009/11/ ... llas-hemma
Den där länken har en blandning av utf8 och iso8859-1. När det är blandat måste man anta att det är iso8859-1 som gäller eftersom utf8 delarna fortfarande är giltiga då. Det går inte att anta utf8 eftersom iso8859-1-delarna är helt ogiltiga som utf8-sekvenser.
Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.
Användarvisningsbild
Konservburk
Inlägg: 5919
Blev medlem: 07 apr 2007, 22:28

Re: Hitta "replacement character" i text

Inlägg av Konservburk »

ubot skrev:Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.
Blandad teckenkodning är ogiltig som utf8, och det är knappast meningen att den ska vara blandad, utan det är de som har gjort den där sidan som har klantat sig.

Om det bara är åäöÅÖÄ du bryr dig om så kan du kanske skriva en egen funktion som som klarar av att göra om blandad teckenkodning till utf8.
ubot
Inlägg: 4613
Blev medlem: 04 jan 2008, 14:03
OS: Ubuntu
Utgåva: 24.04 Noble Numbat LTS

Re: Hitta "replacement character" i text

Inlägg av ubot »

Konservburk skrev:
ubot skrev:Jaha, så det är därför mb_detect_encoding slår fel då. Hur ska man veta att det är "blandad" teckenkodning då? Det måste jag ju veta om jag ska räkna teckenkodningen som UTF-8 och inte som mb_detect_coding säger, dvs ISO-8859-1.
Blandad teckenkodning är ogiltig som utf8, och det är knappast meningen att den ska vara blandad, utan det är de som har gjort den där sidan som har klantat sig.

Om det bara är åäöÅÖÄ du bryr dig om så kan du kanske skriva en egen funktion som som klarar av att göra om blandad teckenkodning till utf8.
Puh, det vet jag inte om jag klarar på egen hand. Då får jag ha lite bra anvisningar för hur jag ska göra. Det är iofs mest å, ä och ö som blir fel eftersom jag mest har att göra med svensk text, men bara metoden går att anpassa till även andra tecken om det skulle behövas längre fram så är det en lösning som duger.

Klantat sig? Och den sajten ska vara nominerad till Stora Journalistpriset, tss. ;)
Skriv svar

Återgå till "Programmering och webbdesign"