Python: как я могу заменить символы полной ширины символами половины ширины?

Question

Python: как я могу заменить символы полной ширины символами половины ширины?

Если бы это был PHP, я бы, вероятно, сделал что-то вроде этого:

function no_more_half_widths($string){
  $foo = array('１','２','３','４','５','６','７','８','９','１０')
  $bar = array('1','2','3','4','5','6','7','8','9','10')
  return str_replace($foo, $bar, $string)
}

Я пробовал .функция translate в python и указывает, что массивы не имеют одинакового размера. Я предполагаю, что это связано с тем, что отдельные символы кодируются в UTF-8. Есть предложения?

7

python translation unicode

автор: ghostdog74

6 ответов

автор: Daniel Newby · Accepted Answer · 2014-07-03 04:10:16

встроенный unicodedata модуль может сделать это:

>>> import unicodedata
>>> foo = u'１２３４５６７８９０'
>>> unicodedata.normalize('NFKC', foo)
u'1234567890'

"NFKC " означает"Форма Нормализации KC [декомпозиция совместимости, за которой следует каноническая композиция]", и заменяет символы полной ширины на символы половинной ширины, которые являются эквивалент в Юникоде.

обратите внимание, что он также нормализует все виды других вещей одновременно, как отдельные знаки акцента и римские цифры.

автор: greenqy · Accepted Answer · 2016-04-18 12:07:25

в Python3 вы можете использовать следующий фрагмент. Он сделал карту между всеми символами ascii и соответствующим символом полной ширины. Лучше всего, это не нужно вам жесткий тип последовательности ascii, который довольно подвержен ошибкам.

 #! /usr/bin/env python3
 # -*- coding: utf-8 -*-     

 FULL2HALF = dict((i + 0xFEE0, i) for i in range(0x21, 0x7F))
 FULL2HALF[0x3000] = 0x20

 def halfen(s):
     '''
     Convert full-width characters to ASCII counterpart
     '''
     return str(s).translate(FULL2HALF)

кроме того, с той же логикой вы можете конвертировать символы halfwidth в символ fullwidth, следующий код показывает трюк:

 #! /usr/bin/env python3
 # -*- coding: utf-8 -*-

 HALF2FULL = dict((i, i + 0xFEE0) for i in range(0x21, 0x7F))
 HALF2FULL[0x20] = 0x3000

 def fullen(s):
     '''
     Convert all ASCII characters to the full-width counterpart.
     '''
     return str(s).translate(HALF2FULL)

примечание: эти два фрагмента рассматривают только символы ascii и не преобразуют их японский / корейский fullwidth характер.

для полноты картины от wikepedia:

ряд U+FF01–FF5E воспроизводит характеры ASCII 21 К 7E как формы fullwidth, то есть форма фиксированной ширины, используемая в CJK вычисления. Это полезно для набора латинских символов в CJK окружающая среда. U+FF00 не соответствует полной ширине ASCII 20 (символ пространства), так как эта роль уже выполняется U+3000 "идеографическое пространство."

ряд U+FF65–FFDC кодирует формы половинной ширины катаканы и хангыля письмена.

ряд U+FFE0–FFEE включает символы fullwidth и halfwidth.

и более, решение python2 может ссылаться на gist / jcayzac

автор: Max Shawabkeh · Accepted Answer · 2010-03-11 02:56:40

Я не думаю, что есть встроенная функция для выполнения нескольких замен за один проход, поэтому вам придется сделать это самостоятельно.

один из способов сделать это:

>>> src = (u'１',u'２',u'３',u'４',u'５',u'６',u'７',u'８',u'９',u'１０')
>>> dst = ('1','2','3','4','5','6','7','8','9','0')
>>> string = u'a１２３'
>>> for i, j in zip(src, dst):
...     string = string.replace(i, j)
... 
>>> string
u'a123'

или с помощью словаря:

>>> trans = {u'１': '1', u'２': '2', u'３': '3', u'４': '4', u'５': '5', u'６': '6', u'７': '7', u'８': '8', u'９': '9', u'０': '0'}
>>> string = u'a１２３'
>>> for i, j in trans.iteritems():
...     string = string.replace(i, j)
...     
>>> string
u'a123'

или, наконец, с помощью regex (и это может быть самый быстрый):

>>> import re
>>> trans = {u'１': '1', u'２': '2', u'３': '3', u'４': '4', u'５': '5', u'６': '6', u'７': '7', u'８': '8', u'９': '9', u'０': '0'}
>>> lookup = re.compile(u'|'.join(trans.keys()), re.UNICODE)
>>> string = u'a１２３'
>>> lookup.sub(lambda x: trans[x.group()], string)
u'a123'

автор: Josh Lee · Accepted Answer · 2010-03-11 03:08:22

С помощью unicode.translate способ:

>>> table = dict(zip(map(ord,u'０１２３４５６７８９'),map(ord,u'0123456789')))
>>> print u'１２３'.translate(table)
123

требуется отображение кодовых точек как цифры, а не персонажей. Кроме того, используя u'unicode literals' оставляет значения некодированные.

автор: YOU · Accepted Answer · 2016-11-02 05:45:06

Regex подход

>>> import re
>>> re.sub(u"[\uff10-\uff19]",lambda x:chr(ord(x.group(0))-0xfee0),u"４５６")
u'456'

автор: Nils von Barth · Accepted Answer · 2014-07-03 03:37:39

в Python 3, cleanest должен использовать .перевести и .maketrans:

FULLWIDTH_TO_HALFWIDTH = str.maketrans('１２３４５６７８９０',
                                       '1234567890')
def fullwidth_to_halfwidth(s):
    return s.translate(FULLWIDTH_TO_HALFWIDTH)

в Python 2, str.maketrans вместо строку.maketrans и не работает с символами Юникода, поэтому вам нужно сделать словарь, как отмечает Джош ли выше.