Строка как массив в PHP (обращение через {}) и UTF−8

В PHP есть очень удобный оператор {} (фигурные скобки), позволяющий обращаться к отдельными символам строки как к элементам массива. Например:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }

$string = "Строка как массив";
echo $string{3};
 

Вернёт нам букву «о», стоящую на четвёртой позиции. Но данный приём не действует со строками в кодировке UTF-8, поскольку каждый символ этой кодировки занимает вдвое больше байтов (соответственно рассматриваемый оператор вернёт только «половину» символа). Есть ли какое-то решение, позволяющее использовать {} со строками в UTF-8?

1 ответов


Символы UTF-8 могут занимать от 1 до 6 (4) байт. Чтобы обращаться к символам Unicode по индексу в строке, необходимо, чтобы они занимали фиксированное число байт, т.е. были бы в кодировке UCS-2 / UCS-4, что PHP 5 не поддерживает. В зависимости от задачи, можно использовать iconv или utf8_decode для конвертирования строки в однобайтную кодировку.


аналогов {} нет, но можно так (проверить сейчас не могу)


function char($str, $pos) {
    return mb_substr($str,$pos-1,1,'UTF-8');
}

$utf8string = "cakeæøå";
echo char($utf8string,5);
 

http://ru.php.net/manual/en/function.substr.php (здесь комментарии посмотрите)
http://ru.php.net/manual/en/function.mb-substr.php

Не проверял но так попробовать:


header('Content-type: text/html;charset=UTF-8');
$iso = utf8_decode("expirébientôtåldersgränshögre");
echo utf8_encode($iso{5});
 
Возможно может еще локаль поставить правильную надо например

setlocale(LC_ALL, 'fr_FR.ISO-8859-1')
 
ЗЫ Скорее всего это подойдет для европейских языков, но в UTF-8 еще много чего есть кроме буков :)

<?
$s = "abcdef";
echo $s[2];
?>