удалить unicode emoji с помощью re в python

Question

удалить unicode emoji с помощью re в python

Я попытался удалить emoji из текста твита unicode и распечатать результат в python 2.7 с помощью

myre = re.compile(u'[u1F300-u1F5FFu1F600-u1F64Fu1F680-u1F6FFu2600-u26FFu2700-u27BF]+',re.UNICODE)
print myre.sub('', text)

но кажется, что почти все символы удалены из текста. Я проверил несколько ответов из других сообщений, к сожалению, ни один из них не работает здесь. Я сделал что-то не так в огне.compile ()?

вот пример вывода, что все символы были удалены:

“   '   //./” ! # # # …

6

emoji python regex tweets unicode

автор: Martijn Pieters

1 ответов

автор: Martijn Pieters · Accepted Answer · 2015-02-28 16:24:02

вы не используете правильную нотацию для точек unicode, отличных от BMP; вы хотите использовать \U0001FFFF, a капитал U и 8 цифр:

myre = re.compile(u'['
    u'\U0001F300-\U0001F5FF'
    u'\U0001F600-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)

это можно свести к:

myre = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)

поскольку ваши первые два диапазона смежны.

ваша версия указывала (с добавленными пробелами для удобства чтения):

[\u1F30 0-\u1F5F F\u1F60 0-\u1F64 F\u1F68 0-\u1F6F F \u2600-\u26FF\u2700-\u27BF]+

вот так \uxxxx escape-последовательность всегда принимает только 4 шестнадцатеричные цифры, а не 5.

в самый большой из этих диапазонов -0-\u1F6F (так из цифры 0 до Ὧ), которая охватывает очень большая полоса стандарта Unicode.

исправленное выражение работает, если вы используете исполняемый файл Python UCS-4:

>>> import re
>>> myre = re.compile(u'['
...     u'\U0001F300-\U0001F64F'
...     u'\U0001F680-\U0001F6FF'
...     u'\u2600-\u26FF\u2700-\u27BF]+', 
...     re.UNICODE)
>>> myre.sub('', u'Some example text with a sleepy face: \U0001f62a')
u'Some example text with a sleepy face: '

эквивалент UCS-2:

myre = re.compile(u'('
    u'\ud83c[\udf00-\udfff]|'
    u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
    u'[\u2600-\u26FF\u2700-\u27BF])+', 
    re.UNICODE)

вы можете объединить их в свой скрипт с обработчиком исключений:

try:
    # Wide UCS-4 build
    myre = re.compile(u'['
        u'\U0001F300-\U0001F64F'
        u'\U0001F680-\U0001F6FF'
        u'\u2600-\u26FF\u2700-\u27BF]+', 
        re.UNICODE)
except re.error:
    # Narrow UCS-2 build
    myre = re.compile(u'('
        u'\ud83c[\udf00-\udfff]|'
        u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
        u'[\u2600-\u26FF\u2700-\u27BF])+', 
        re.UNICODE)