PHP « Пробел в UTF−8

Друзья, ладно еще то, что пробел в UTF-8 это chr(194).chr(160) а не chr(32), но почему не работает вот это?

/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }

$str='a b'; //будем считать что эта строка хранится в отдельном файле в кодировке windows-1251

$str=iconv('windows-1251','utf-8',$str); //теперь конвертируем ее, т.к. наш сайт работает в UTF-8

$str=str_replace(' ','',$str); //эта строка не хочет заменять пробелы, хотя пробел в ней набран в кодировке UTF-8
 

пришлось писать так
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }

$str=str_replace(chr(194).chr(160),'',$str);
 

1 ответов


Хм.... как бы Все авторы рассказали правильно, но не о том, о чем спросил топикстартер. Извините за критику.

xC2xA0 ( ну или chr(194).chr(160) ) о котором начал разговор топикстартер. Это ни разу не совсем пробел. Вернее совсем не пробел. Это символ неразрывного пробела. Он же   он же chr(160) в кодировке ISO. А пробел он же chr(32) он же x20 выглядит совершенно одинаково, что в UTF, что в ISO.
В восьмибитных кодировках для замены неразрывного пробела на обычный вполне себе работает следующая конструкция :
$string = str_replace(chr(160), chr(32), $string);
Ну а для 16 битной кодировки автор сам решил задачу.
Отсюда же растут ноги иногда мифическим образом неправильно работающей функции explode.



Для этого надо юзать функцию, которая работает в utf8


function utf8_substr_replace(/*string*/ $string,
                             /*string*/ $replacement,
                             /*int*/    $start,
                             /*int*/    $length = null)
{
    if (! function_exists('utf8_str_split')) include_once 'utf8_str_split.php';
    if (! is_array($a = utf8_str_split($string))) return false;
    array_splice($a, $start, $length, $replacement);
    return implode('', $a);
}
 

Если я с просони не ошибся.

Вообще, как бы логично, что multibyte строчка не будет обрабатываться обычной функцией. Для этого смециально существуют Multibyte String Functions.


if(!function_exists('mb_str_replace')) {

    // создаем свою функцию, если эти умные дяди из PHP не шмогли
  function mb_str_replace($needle, $replacement, $haystack) {
    $needle_len = mb_strlen($needle);
    $replacement_len = mb_strlen($replacement);
    $pos = mb_strpos($haystack, $needle);
    while ($pos !== false) {
      $haystack =
         mb_substr($haystack, 0, $pos) . $replacement .
         mb_substr($haystack, $pos + $needle_len);
      $pos = mb_strpos($haystack, $needle, $pos + $replacement_len);
    }
    return $haystack;
  }
}
 

Теперь, должно работать.

$str = mb_str_replace(' ','',$str);