UTF-8 проблем при чтении CSV-файла с fgetcsv
Я пытаюсь прочитать CSV и Эхо-контент. Но содержимое отображает символы неправильно.
Mäx Müstermänn - > Mà x x MüstermÃ
кодировка CSV-файла-UTF-8 без BOM (проверено с помощью Notepad++).
это содержимое файла CSV:
"Mäx";"Müstermänn"
мой PHP скрипт
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
$num = count ($data);
for ($c=0; $c < $num; $c++) {
// output data
echo "<td>$data[$c]</td>";
}
echo "</tr><tr>";
}
?>
</body>
</html>
Я пытался использовать setlocale(LC_ALL, 'de_DE.utf8');
как было предложено здесь без успеха. Содержание все еще неправильно отображается.
чего мне не хватает?
Edit:
An echo mb_detect_encoding($data[$c],'UTF-8');
дает мне UTF-8 UTF-8.
echo file_get_contents("specialchars.csv");
дает мне "Mäx";"Müstermänn"
.
и
print_r(str_getcsv(reset(explode("n", file_get_contents("specialchars.csv"))), ';'))
дает мне
Array ( [0] => Mäx [1] => Müstermänn )
что это значит?
6 ответов
попробуйте это:
<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
$data = array_map("utf8_encode", $data); //added
$num = count ($data);
for ($c=0; $c < $num; $c++) {
// output data
echo "<td>$data[$c]</td>";
}
echo "</tr><tr>";
}
?>
столкнулся с аналогичной проблемой: разбор CSV-файла со специальными символами, такими как é, è, ö и т. д...
следующее отлично сработало для меня:
чтобы правильно представить символы на html-странице, заголовок был необходим:
header('Content-Type: text/html; charset=UTF-8');
чтобы правильно разобрать каждый символ, я использовал:
utf8_encode(fgets($file));
не забудьте использовать во всех следующих строковых операциях "многобайтовые строковые функции", например:
mb_strtolower($value, 'UTF-8');
Попробуйте поместить это в верхнюю часть файла (перед любым другим выходом):
<?php
header('Content-Type: text/html; charset=UTF-8');
?>
проблема в том, что функция возвращает UTF-8 (она может проверить с помощью mb_detect_encoding), но не конвертировать, и эти символы принимает как UTF-8. Поэтому необходимо сделать обратное-преобразовать в начальную кодировку (Windows-1251 или CP1251) с помощью iconv. Но поскольку fgetcsv возвращает массив, я предлагаю написать пользовательскую функцию: [извините за мой английский]
function customfgetcsv(&$handle, $length, $separator = ';'){
if (($buffer = fgets($handle, $length)) !== false) {
return explode($separator, iconv("CP1251", "UTF-8", $buffer));
}
return false;
}
теперь я получил его работу (после удаления header
command). Я думаю, проблема заключалась в том, что кодировка php-файла была в ISO-8859-1. Я установил его в UTF-8 без BOM. Я думал, что уже сделал это, но, возможно, я сделал дополнительную отмену.
кроме того, я использовал SET NAMES 'utf8'
для базы данных. Теперь это также правильно в базе данных.
в моем случае исходный файл имеет кодировку windows-1250 и iconv печатает тонны уведомлений о незаконных символах во входной строке...
так что это решение мне очень помогло:
/**
* getting CSV array with UTF-8 encoding
*
* @param resource &$handle
* @param integer $length
* @param string $separator
*
* @return array|false
*/
private function fgetcsvUTF8(&$handle, $length, $separator = ';')
{
if (($buffer = fgets($handle, $length)) !== false)
{
$buffer = $this->autoUTF($buffer);
return str_getcsv($buffer, $separator);
}
return false;
}
/**
* automatic convertion windows-1250 and iso-8859-2 info utf-8 string
*
* @param string $s
*
* @return string
*/
private function autoUTF($s)
{
// detect UTF-8
if (preg_match('#[\x80-\x{1FF}\x{2000}-\x{3FFF}]#u', $s))
return $s;
// detect WINDOWS-1250
if (preg_match('#[\x7F-\x9F\xBC]#', $s))
return iconv('WINDOWS-1250', 'UTF-8', $s);
// assume ISO-8859-2
return iconv('ISO-8859-2', 'UTF-8', $s);
}
ответ на ответ @manvel-используйте str_getcsv вместо explode-из-за таких случаев:
some;nice;value;"and;here;comes;combinated;value";and;some;others
взорвать взорвет строку на части:
some
nice
value
"and
here
comes
combinated
value"
and
some
others
но str_getcsv разнесет строку на части:
some
nice
value
and;here;comes;combinated;value
and
some
others