Упрощенная китайская таблица Unicode

где я могу найти таблицу Unicode, показывающую только упрощенные китайские символы? Я искал везде, но ничего не нашел.

обновление :
Я обнаружил, что есть еще одна кодировка под названием GB 2312 -
http://en.wikipedia.org/wiki/GB_2312
- который содержит только упрощенные иероглифы.
Конечно, я могу использовать это, чтобы получить то, что мне нужно?

Я также нашел этот файл, который карты GB2312 в Юникод -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- но я не уверен, что это так.

Если эта таблица не верна, может быть, кто-то может указать мне на тот, который есть, или, может быть, просто таблицу символов GB2312 и какой-то способ их преобразования?

обновление 2 :
Этот сайт также предоставляет таблицу GB / Unicode и даже программу Java для создания файла со всеми символами GB а также эквиваленты Unicode:
http://www.herongyang.com/gb2312/

5 ответов


на база данных Unihan содержит эту информацию в файле Unihan_Variants.txt. Например, пара традиционных / упрощенных символов:

U+673A  kTraditionalVariant     U+6A5F
U+6A5F  kSimplifiedVariant      U+673A

в приведенном выше случае U+6A5F - это 機, традиционная форма ¼ (U + 673A).

другой подход-использовать CC-CEDICT проект, который публикует словарь китайских иероглифов и соединений (как традиционных, так и упрощенных). Каждая запись выглядит примерно так:

宕機 宕机 [ji1 dang4] /аварии (компьютера)/тайваньские срок для 當機|当机[ji1 dang4]/

первый столбец является традиционными символами, а второй столбец упрощен.

и все упрощенные символы, прочитайте этот текстовый файл и составьте список всех символов, которые появляются во втором столбце. Обратите внимание, что некоторые символы могут не отображаться сами по себе (только в соединениях), поэтому недостаточно смотреть на односимвольные записи.


OP не указывает, какой язык они используют, но если вы используете Ruby, я написал небольшая библиотека это может различать упрощенный и традиционный китайский (плюс корейский и японский в качестве бонуса). Как было предложено в ответе Грега, он опирается на дистиллированную версию Unihan_Variants.txt чтобы выяснить, какие символы исключительно упрощены и которые исключительно традиционный.

https://github.com/jpatokal/script_detector

пример:

p string
=> "我的氣墊船充滿了鱔魚."
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.simplified_chinese?
=> false

, а как Unicode FAQ должным образом предупреждает, это требует значительных фрагментов текста для надежной работы и даст вводящие в заблуждение результаты для коротких строк. Рассмотрим японцев для Токио:

p string
=> "東京"
> string.chinese?
=> true
> string.traditional_chinese?
=> true
> string.japanese?
=> false

поскольку оба символа также являются действительными традиционными китайскими, и нет исключительно японских символов, это не распознается правильно.


Я не уверен, что это легко сделать. Идеограммы Han объединены в Unicode, поэтому не сразу понятно, как это сделать. Но база данных Unihan (http://www.unicode.org/charts/unihan.html) может иметь необходимые вам данные.


по данным Википедия упрощенный китайский v. традиционный, кандзи или другие форматы во многих случаях остаются до рендеринга шрифта. Таким образом, хотя у вас может быть выбор упрощенных китайских кодовых точек, этот список не будет полным, так как многие символы больше не различаются.


Я не верю, что есть таблица только с упрощенной точки кода. Я думаю, что они все собраны вместе в диапазон CJK от 0x4E00 до 0x9FFF