Упрощенная китайская таблица Unicode
где я могу найти таблицу Unicode, показывающую только упрощенные китайские символы? Я искал везде, но ничего не нашел.
обновление :
Я обнаружил, что есть еще одна кодировка под названием GB 2312 -
http://en.wikipedia.org/wiki/GB_2312
- который содержит только упрощенные иероглифы.
Конечно, я могу использовать это, чтобы получить то, что мне нужно?
Я также нашел этот файл, который карты GB2312 в Юникод -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- но я не уверен, что это так.
Если эта таблица не верна, может быть, кто-то может указать мне на тот, который есть, или, может быть, просто таблицу символов GB2312 и какой-то способ их преобразования?
обновление 2 :
Этот сайт также предоставляет таблицу GB / Unicode и даже программу Java для создания файла
со всеми символами GB а также эквиваленты Unicode:
http://www.herongyang.com/gb2312/
5 ответов
на база данных Unihan содержит эту информацию в файле Unihan_Variants.txt
. Например, пара традиционных / упрощенных символов:
U+673A kTraditionalVariant U+6A5F
U+6A5F kSimplifiedVariant U+673A
в приведенном выше случае U+6A5F - это 機, традиционная форма ¼ (U + 673A).
другой подход-использовать CC-CEDICT проект, который публикует словарь китайских иероглифов и соединений (как традиционных, так и упрощенных). Каждая запись выглядит примерно так:
宕機 宕机 [ji1 dang4] /аварии (компьютера)/тайваньские срок для 當機|当机[ji1 dang4]/
первый столбец является традиционными символами, а второй столбец упрощен.
и все упрощенные символы, прочитайте этот текстовый файл и составьте список всех символов, которые появляются во втором столбце. Обратите внимание, что некоторые символы могут не отображаться сами по себе (только в соединениях), поэтому недостаточно смотреть на односимвольные записи.
OP не указывает, какой язык они используют, но если вы используете Ruby, я написал небольшая библиотека это может различать упрощенный и традиционный китайский (плюс корейский и японский в качестве бонуса). Как было предложено в ответе Грега, он опирается на дистиллированную версию Unihan_Variants.txt
чтобы выяснить, какие символы исключительно упрощены и которые исключительно традиционный.
https://github.com/jpatokal/script_detector
пример:
p string
=> "我的氣墊船充滿了鱔魚."
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.simplified_chinese?
=> false
, а как Unicode FAQ должным образом предупреждает, это требует значительных фрагментов текста для надежной работы и даст вводящие в заблуждение результаты для коротких строк. Рассмотрим японцев для Токио:
p string
=> "東京"
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.japanese?
=> false
поскольку оба символа также являются действительными традиционными китайскими, и нет исключительно японских символов, это не распознается правильно.
Я не уверен, что это легко сделать. Идеограммы Han объединены в Unicode, поэтому не сразу понятно, как это сделать. Но база данных Unihan (http://www.unicode.org/charts/unihan.html) может иметь необходимые вам данные.
по данным Википедия упрощенный китайский v. традиционный, кандзи или другие форматы во многих случаях остаются до рендеринга шрифта. Таким образом, хотя у вас может быть выбор упрощенных китайских кодовых точек, этот список не будет полным, так как многие символы больше не различаются.
Я не верю, что есть таблица только с упрощенной точки кода. Я думаю, что они все собраны вместе в диапазон CJK от 0x4E00 до 0x9FFF