PHP « Обрезать текст до пробела
Необходимо обрезать текст до длины в n символов, а так же до крайнего пробела, тоесть чтобы обрезание не происходило на середине слова. Проблема в том, что текст в utf-8 кодировке, и некоторые символы размером в несколько битов.
покачто получилось так:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
$str = 'тут очень длинный текст из самых разных сивмолов';
var_dump($str); // string 'тут очень длинный текст из самых разных сивмолов' (length=89)
$limit = strlen(mb_substr($str, 0, 20, 'utf8')); // Слово "тут" из трёх букв занимает 6 символов. Таким оброзом вычисляем из скольки символов состоят первые 20 букв и знаков.
var_dump($limit); // int 37
while($str[$limit] != ' ') { // ищим самый крайний пробел
$limit--;
}
// найдя самый крайний пробел обрезаем строку.
var_dump(substr($str, 0, $limit)); // string 'тут очень длинный' (length=32)
В этом примере обрезаем не больше 20 первых символов.
Какие есть ещё варианты решения этой задачи?
покачто получилось так:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
$str = 'тут очень длинный текст из самых разных сивмолов';
var_dump($str); // string 'тут очень длинный текст из самых разных сивмолов' (length=89)
$limit = strlen(mb_substr($str, 0, 20, 'utf8')); // Слово "тут" из трёх букв занимает 6 символов. Таким оброзом вычисляем из скольки символов состоят первые 20 букв и знаков.
var_dump($limit); // int 37
while($str[$limit] != ' ') { // ищим самый крайний пробел
$limit--;
}
// найдя самый крайний пробел обрезаем строку.
var_dump(substr($str, 0, $limit)); // string 'тут очень длинный' (length=32)
В этом примере обрезаем не больше 20 первых символов.
Какие есть ещё варианты решения этой задачи?
1 ответов
Хочу привести в пример одну замечательную функцию, которая является плагином-моификатором для вывода переменных Smarty
function smarty_modifier_mb_truncate(
$string,
$length = 80,
$etc = '...',
$charset='UTF-8',
$break_words = false,
$middle = false) {
if ($length == 0) return '';
if (strlen($string) > $length) {
$length -= min($length, strlen($etc));
if (!$break_words && !$middle) {
$string = preg_replace('/\s+?(\S+)?$/', '',
mb_substr($string, 0, $length+1, $charset));
}
if(!$middle) {
return mb_substr($string, 0, $length, $charset) . $etc;
} else {
return mb_substr($string, 0, $length/2, $charset) .
$etc .
mb_substr($string, -$length/2, $charset);
}
} else {
return $string;
}
}
Я бы так сделал:
<?php
$str = 'тут очень длинный текст из самых разных символов';
function cut($text, $limit) {
if (!$firstSpaceAfterLimit = mb_strpos($text, ' ', $limit, 'UTF-8')) {
$firstSpaceAfterLimit = $limit;
}
return mb_substr($text, 0, $firstSpaceAfterLimit);
}
echo cut($str, 15);
Правда, на вашем месте я бы еще учел, что слова заканчиваются не только на пробелы, а еще и на знаки табуляции (в том числе переводы строк), знаки пунктуации и т.п.
Ну.... можно и проще. Результат - обрезанная до $limit строка с учетом границы слова.
Кодировка любая. Неразрывные пробелы сохраняются.
function truncate_phrase($str, $limit)
{
$str = mb_substr($str,0,$limit+1); // +1 на случай, если $limit попадает на границу слов
$str = explode(' ',$str) ;
array_pop($str);
return implode(' ',str);
}