Как сделать регулярное выражение, заменить в MySQL?
у меня есть таблица с ~ 500k строк; varchar (255) UTF8 столбец filename
содержит имя файла;
Я пытаюсь удалить различные странные символы из имени файла-думал, что буду использовать класс символов:[^a-zA-Z0-9()_ .-]
теперь есть ли функция в MySQL, которая позволяет заменить через регулярное выражение? Я ищу аналогичную функциональность для замены функции () - упрощенный пример:
SELECT REPLACE('stackowerflow', 'ower', 'over');
Output: "stackoverflow"
/* does something like this exist? */
SELECT X_REG_REPLACE('Stackoverflow','/[A-Zf]/','-');
Output: "-tackover-low"
Я знаю о REGEXP / RLIKE, но те только проверить если есть совпадение, а не что матч.
(I мог бы сделать "SELECT pkey_id,filename FROM foo WHERE filename RLIKE '[^a-zA-Z0-9()_ .-]'
" из скрипта PHP сделайте preg_replace
и затем "UPDATE foo ... WHERE pkey_id=...
", но это выглядит как последний курорт медленный и уродливый Хак)
10 ответов
MySQL 8.0+ вы можете использовать изначально REGEXP_REPLACE
.
REGEXP_REPLACE (expr, pat, repl [, pos [, вхождение [, match_type]]])
заменяет вхождения в строке expr, которые соответствуют регулярному выражению, указанному шаблоном pat с заменой строки repl, и возвращает результирующую строку. Если expr, pat или repl равно NULL, возвращаемое значение равно NULL.
и поддержка регулярных выражений:
ранее MySQL использовал библиотеку регулярных выражений Генри Спенсера для поддержки операторов регулярных выражений (REGEXP, RLIKE).
поддержка регулярных выражений была реимплиментирована с использованием международных компонентов для Unicode (ICU), который обеспечивает полную поддержку Unicode и многобайтовый сейф. Функция REGEXP_LIKE () выполняет сопоставление регулярных выражений способом Операторы REGEXP и RLIKE, которые теперь являются синонимами для этой функции. кроме того, функции REGEXP_INSTR (), REGEXP_REPLACE () и REGEXP_SUBSTR() доступны для поиска позиций соответствия и выполнения подстановки и извлечения подстроки соответственно.
SELECT REGEXP_REPLACE('Stackoverflow','[A-Zf]','-',1,0,'c');
-- Output:
-tackover-low
нет.
но если у вас есть доступ к вашему серверу, вы можете использовать пользовательскую функцию (UDF), такую как mysql-udf-regexp.
EDIT: MySQL 8.0+ вы можете использовать изначально REGEXP_REPLACE. Подробнее в ответ выше
вместо этого используйте MariaDB. Он имеет функцию
REGEXP_REPLACE(col, regexp, replace)
посмотреть MariaDB docs и улучшения регулярных выражений PCRE
обратите внимание, что вы также можете использовать группировку regexp (я нашел это очень полезным):
SELECT REGEXP_REPLACE("stackoverflow", "(stack)(over)(flow)", '\2 - \1 - \3')
возвращает
over - stack - flow
мой метод грубой силы, чтобы заставить это работать, был просто:
- дамп таблицы -
mysqldump -u user -p database table > dump.sql
- найти и заменить пару моделей -
find /path/to/dump.sql -type f -exec sed -i 's/old_string/new_string/g' {} \;
, очевидно, есть и другие regeular выражения perl, которые вы могли бы выполнить в файле. - импортировать таблицы -
mysqlimport -u user -p database table < dump.sql
Если вы хотите убедиться, что строка не находится в другом месте вашего набора данных, запустите несколько регулярных выражений, чтобы убедиться, что они все происходят в аналогичной среде. Это также не так сложно создать резервную копию перед запуском замены, если вы случайно уничтожите что-то, что теряет глубину информации.
недавно я написал функцию MySQL для замены строк с помощью регулярных выражений. Вы можете найти мой пост по следующему адресу:
http://techras.wordpress.com/2011/06/02/regex-replace-for-mysql/
вот код функции:
DELIMITER $$
CREATE FUNCTION `regex_replace`(pattern VARCHAR(1000),replacement VARCHAR(1000),original VARCHAR(1000))
RETURNS VARCHAR(1000)
DETERMINISTIC
BEGIN
DECLARE temp VARCHAR(1000);
DECLARE ch VARCHAR(1);
DECLARE i INT;
SET i = 1;
SET temp = '';
IF original REGEXP pattern THEN
loop_label: LOOP
IF i>CHAR_LENGTH(original) THEN
LEAVE loop_label;
END IF;
SET ch = SUBSTRING(original,i,1);
IF NOT ch REGEXP pattern THEN
SET temp = CONCAT(temp,ch);
ELSE
SET temp = CONCAT(temp,replacement);
END IF;
SET i=i+1;
END LOOP;
ELSE
SET temp = original;
END IF;
RETURN temp;
END$$
DELIMITER ;
пример исполнения:
mysql> select regex_replace('[^a-zA-Z0-9\-]','','2my test3_text-to. check \ my- sql (regular) ,expressions ._,');
мы решаем эту проблему без использования regex этот запрос заменяет только строку точного соответствия.
update employee set
employee_firstname =
trim(REPLACE(concat(" ",employee_firstname," "),' jay ',' abc '))
пример:
employee_firstname код emp_id
1 Джей
2 Джей Аджай
3 Сойка
после выполнения результата запроса:
employee_firstname код emp_id
1 abc
2 abc ajay
3 abc
Я рад сообщить, что, поскольку этот вопрос был задан, теперь есть удовлетворительный ответ! Взгляните на этот потрясающий пакет:
https://github.com/mysqludf/lib_mysqludf_preg
пример SQL:
SELECT PREG_REPLACE('/(.*?)(fox)/' , 'dog' , 'the quick brown fox' ) AS demo;
Я нашел пакет с этот блог по состоянию на этот вопрос.
обновление 2: полезный набор функций, регулярных выражений, в том числе REGEXP_REPLACE были предоставлены в MySQL 8.0. Это делает чтение ненужным, если вы не ограничены использованием более ранней версии.
обновление 1: теперь сделали это в блоге: http://stevettt.blogspot.co.uk/2018/02/a-mysql-regular-expression-replace.html
следующее расширяет на функция, предоставляемая Rasika Godawatte но тралы через все необходимые подстроки, а не просто тестирование отдельных символов:
-- ------------------------------------------------------------------------------------
-- USAGE
-- ------------------------------------------------------------------------------------
-- SELECT reg_replace(<subject>,
-- <pattern>,
-- <replacement>,
-- <greedy>,
-- <minMatchLen>,
-- <maxMatchLen>);
-- where:
-- <subject> is the string to look in for doing the replacements
-- <pattern> is the regular expression to match against
-- <replacement> is the replacement string
-- <greedy> is TRUE for greedy matching or FALSE for non-greedy matching
-- <minMatchLen> specifies the minimum match length
-- <maxMatchLen> specifies the maximum match length
-- (minMatchLen and maxMatchLen are used to improve efficiency but are
-- optional and can be set to 0 or NULL if not known/required)
-- Example:
-- SELECT reg_replace(txt, '^[Tt][^ ]* ', 'a', TRUE, 2, 0) FROM tbl;
DROP FUNCTION IF EXISTS reg_replace;
DELIMITER //
CREATE FUNCTION reg_replace(subject VARCHAR(21845), pattern VARCHAR(21845),
replacement VARCHAR(21845), greedy BOOLEAN, minMatchLen INT, maxMatchLen INT)
RETURNS VARCHAR(21845) DETERMINISTIC BEGIN
DECLARE result, subStr, usePattern VARCHAR(21845);
DECLARE startPos, prevStartPos, startInc, len, lenInc INT;
IF subject REGEXP pattern THEN
SET result = '';
-- Sanitize input parameter values
SET minMatchLen = IF(minMatchLen < 1, 1, minMatchLen);
SET maxMatchLen = IF(maxMatchLen < 1 OR maxMatchLen > CHAR_LENGTH(subject),
CHAR_LENGTH(subject), maxMatchLen);
-- Set the pattern to use to match an entire string rather than part of a string
SET usePattern = IF (LEFT(pattern, 1) = '^', pattern, CONCAT('^', pattern));
SET usePattern = IF (RIGHT(pattern, 1) = '$', usePattern, CONCAT(usePattern, '$'));
-- Set start position to 1 if pattern starts with ^ or doesn't end with $.
IF LEFT(pattern, 1) = '^' OR RIGHT(pattern, 1) <> '$' THEN
SET startPos = 1, startInc = 1;
-- Otherwise (i.e. pattern ends with $ but doesn't start with ^): Set start pos
-- to the min or max match length from the end (depending on "greedy" flag).
ELSEIF greedy THEN
SET startPos = CHAR_LENGTH(subject) - maxMatchLen + 1, startInc = 1;
ELSE
SET startPos = CHAR_LENGTH(subject) - minMatchLen + 1, startInc = -1;
END IF;
WHILE startPos >= 1 AND startPos <= CHAR_LENGTH(subject)
AND startPos + minMatchLen - 1 <= CHAR_LENGTH(subject)
AND !(LEFT(pattern, 1) = '^' AND startPos <> 1)
AND !(RIGHT(pattern, 1) = '$'
AND startPos + maxMatchLen - 1 < CHAR_LENGTH(subject)) DO
-- Set start length to maximum if matching greedily or pattern ends with $.
-- Otherwise set starting length to the minimum match length.
IF greedy OR RIGHT(pattern, 1) = '$' THEN
SET len = LEAST(CHAR_LENGTH(subject) - startPos + 1, maxMatchLen), lenInc = -1;
ELSE
SET len = minMatchLen, lenInc = 1;
END IF;
SET prevStartPos = startPos;
lenLoop: WHILE len >= 1 AND len <= maxMatchLen
AND startPos + len - 1 <= CHAR_LENGTH(subject)
AND !(RIGHT(pattern, 1) = '$'
AND startPos + len - 1 <> CHAR_LENGTH(subject)) DO
SET subStr = SUBSTRING(subject, startPos, len);
IF subStr REGEXP usePattern THEN
SET result = IF(startInc = 1,
CONCAT(result, replacement), CONCAT(replacement, result));
SET startPos = startPos + startInc * len;
LEAVE lenLoop;
END IF;
SET len = len + lenInc;
END WHILE;
IF (startPos = prevStartPos) THEN
SET result = IF(startInc = 1, CONCAT(result, SUBSTRING(subject, startPos, 1)),
CONCAT(SUBSTRING(subject, startPos, 1), result));
SET startPos = startPos + startInc;
END IF;
END WHILE;
IF startInc = 1 AND startPos <= CHAR_LENGTH(subject) THEN
SET result = CONCAT(result, RIGHT(subject, CHAR_LENGTH(subject) + 1 - startPos));
ELSEIF startInc = -1 AND startPos >= 1 THEN
SET result = CONCAT(LEFT(subject, startPos), result);
END IF;
ELSE
SET result = subject;
END IF;
RETURN result;
END//
DELIMITER ;
демо
ограничения
- этот метод, конечно, займет некоторое время, когда субъект строка большая. обновление: теперь добавили минимальную и максимальную длину матча параметры для повышения эффективности, когда они известны (ноль = неизвестно/неограниченно).
- это не разрешить замену обратных ссылок (например,
,
так далее.) для замены групп захвата. Если эта функция необходима, см. ответ который пытается обеспечить обходной путь, обновляя функцию, чтобы разрешить вторичный поиск и замену в каждом найденном совпадении (за счет повышенной сложности).
- если
^
и/или$
используется в шаблоне, они должны быть в самом начале и в самом конце соответственно - например, модели, такие как(^start|end$)
не поддерживается. - существует" жадный " флаг, чтобы указать, должно ли общее соответствие быть жадным или не жадным. Объединение жадного и ленивого сопоставления в одном регулярном выражении (например,
a.*?b.*
) не поддерживается.
Примеры Использования
функция была использована для того чтобы ответить следующие вопросы StackOverflow:
- как считать слова в MySQL / регулярное выражение заменитель?
- как извлечь N-е слово и подсчитать вхождения слова в MySQL струна?
- как извлечь две последовательные цифры из текстового поля в В MySQL?
- Как удалить все не алфавитно-цифровые символы из строки в В MySQL?
- как замените каждый другой экземпляр определенного символа в MySQL струна?
вы можете это сделать ... но это не очень мудро ... это самое смелое, что я могу сделать ... насколько полное регулярное выражение поддерживает ваше гораздо лучшее использование perl или тому подобное.
UPDATE db.tbl
SET column =
CASE
WHEN column REGEXP '[[:<:]]WORD_TO_REPLACE[[:>:]]'
THEN REPLACE(column,'WORD_TO_REPLACE','REPLACEMENT')
END
WHERE column REGEXP '[[:<:]]WORD_TO_REPLACE[[:>:]]'
мы можем использовать условие IF в запросе SELECT, как показано ниже:
предположим, что для чего - либо с"ABC","ABC1","ABC2","ABC3",..., мы хотим заменить на "ABC", а затем с помощью REGEXP и если () условие в запросе SELECT, мы можем достичь этого.
синтаксис:
SELECT IF(column_name REGEXP 'ABC[0-9]$','ABC',column_name)
FROM table1
WHERE column_name LIKE 'ABC%';
пример:
SELECT IF('ABC1' REGEXP 'ABC[0-9]$','ABC','ABC1');