sed, grep klarar inte sv bokstäver [LÖST]
Postat: 28 sep 2009, 00:24
Jag försöker klippa text men har stött på ett problem. När svenska bokstäver dyker upp i texten så syns ett frågetecken i en svart ruta. Det gör att grep och sed klipper texten konstigt. Bla klarar grep -o ".*" inte av att lägga hela texten på en rad utan klipper texten där svenska bokstäver förekommer och sedan hamnar resten på en ny rad. Texten kommer ursprungligen från en webbsida via curl och har sedan passerat ett php-skript med reg_match mm.
Vad är det här och vad gör man åt problemet?
Edit:
Problmet beror om jag förstår saken rätt på att i webbsidornas kod syns svenska tecken som html-tecken, men det verkar inte php-funktionen file_get_contents() (inte heller curl) av. Så lösningen kanske är att få curl att hämta koden utan att byta ut svenska tecken i html-format till konstiga tecken.
Kan det vara Terminalens hantering av teckenkodning som spökar? När jag tittar på koden till webbsidan så är sv tecken en kombination av bokstäver mm (html-tecken?), men när det skriv ut i Terminalen så ser man inte sv tecken utan massa konstigheter istället för å, ä och ö. Det här förstör mitt skripts funktion. Men var är felet? Jag misstänker Terminalens teckenkodning?
Vad är det här och vad gör man åt problemet?
Edit:
Problmet beror om jag förstår saken rätt på att i webbsidornas kod syns svenska tecken som html-tecken, men det verkar inte php-funktionen file_get_contents() (inte heller curl) av. Så lösningen kanske är att få curl att hämta koden utan att byta ut svenska tecken i html-format till konstiga tecken.
Kan det vara Terminalens hantering av teckenkodning som spökar? När jag tittar på koden till webbsidan så är sv tecken en kombination av bokstäver mm (html-tecken?), men när det skriv ut i Terminalen så ser man inte sv tecken utan massa konstigheter istället för å, ä och ö. Det här förstör mitt skripts funktion. Men var är felet? Jag misstänker Terminalens teckenkodning?