Как работает токенизация и сопоставление шаблонов на китайском языке.?

этот вопрос включает в себя вычисления, а также знание китайского. У меня есть китайские запросы, и у меня есть отдельный список фраз на китайском языке, я должен быть в состоянии найти, какой из этих запросов имеет любую из этих фраз.

на английском языке, это очень простая задача. Я совсем не понимаю китайский язык, его семантику, правила грамматики и т. д. и если кто-то на этом форуме, кто также понимает китайский язык, может помочь мне с некоторым базовым пониманием и тем, как сопоставление шаблонов выполняется для Китайский.

У меня есть основное восприятие, что в китайском языке одна единица (без какого-либо пространства между ними) может фактически означать более одного слова(это правильно?). Так есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделиться как единое целое. Это сбивает с толку, потому что в китайской письменности есть пробелы, но даже единица без пространства имеет более одного слова.

любые ссылки, которые объясняют китайский язык с вычислительной точки зрения, сопоставление шаблонов и т. д. очень полезно..

2 ответов


У меня есть основное восприятие, что в китайском языке одна единица (без какого-либо пространства между ними) может фактически означать более одного слова(это правильно?).

в китайских пробелах редко используются, например:

递归(英语:рекурсии),又譯為遞迴,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法。。递归一词还较常用于描述以自相似方法重复事物的过程例如 , ,当两面镜子相互之间近似平行时,。镜中嵌套的图像是以无限递归的形式出现的

Вы заметите, что пространства на самом деле просто китайские препинания персонажи, которые просто имеют больше заполнения, чем обычно.

Так есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделиться как единица. Это сбивает с толку, потому что в китайской письменности есть пробелы, но даже единица без пространства имеет более одного слова.

подумайте об этом так: один китайский символ очень, очень грубо похож на одно английское слово. Часто две или более символов должны быть объединены в сформируйте одно слово, и каждый отдельный символ может означать что-то совершенно другое в зависимости от контекста.

чтобы осмысленно обозначить китайский текст, вам придется сегментировать слова, принимая это во внимание.

посмотреть обработка китайского естественного языка и обработка речи, из Стэнфордской группы НЛП.


книга Кена Лунде обработка информации CJKV наверное стоит посмотреть. Основным порядком слов является subject-verb-object, но см. Также "topic prominence" вhttp://en.wikipedia.org/wiki/Chinese_grammar