Есть ли какой-либо хороший алгоритм сегментации с открытым исходным кодом или свободно доступный китайский? [закрытый]

Question

Есть ли какой-либо хороший алгоритм сегментации с открытым исходным кодом или свободно доступный китайский? [закрытый]

как сформулировано в вопросе, я ищу бесплатный и/или алгоритм сегментации текста с открытым исходным кодом для китайского языка, я понимаю, что это очень сложная задача для решения, поскольку есть много двусмысленностей. Я знаю, что есть API google, но это скорее черный ящик, т. е. не так много информации о том, что он делает, проходит.

27

algorithm cjk open-source text-segmentation

автор: madth3

4 ответов

автор: lschin · Accepted Answer · 2015-06-15 07:18:36

ключевое слово text-segmentation for Chinese должно быть 中文分词 по-китайски.

хороший и активный алгоритм сегментации текста с открытым исходным кодом :

盘古分词(сегмент Пан ГУ) : C#, Snapshot
ИК-анализатора : Java
ICTCLAS : C/C++, Java, C#, Demo
NlpBamboo : C, PHP, PostgreSQL
HTTPCWS : на ICTCLAS, Demo
mmseg4j : Java
fudannlp : Java, Demo
smallseg : Python, Java, Demo
nseg : NodeJS
мини-сегментер: python

другое

Код Google : http://code.google.com/query/#q=中文分词
OSChina (Китай С Открытым Исходным Кодом)

пример

Google Chrome (Хром) : src, cc_cedict.txt (73,145 Chinese words/pharases)
- на text field или textarea of Google Chrome с китайскими предложениями, нажимать Ctrl+← или Ctrl+→
- Double click on 中文分词指的是将一个汉字序列切分成一个一个单独的词

автор: ShanJay · Accepted Answer · 2011-08-31 02:41:33

сегмент Стэнфорда с использованием алгоритма CRF.

Это под GPL

страница ссылки:http://nlp.stanford.edu/software/segmenter.shtml

автор: Phyxx · Accepted Answer · 2014-04-27 00:02:55

ICU сведения о универсальный текст сегментация - http://userguide.icu-project.org/boundaryanalysis

автор: Denis de Bernardy · Accepted Answer · 2011-05-19 03:07:30

беглый поиск в гугле для "сегментации текста с открытым исходным кодом" показывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:

http://sourceforge.net/projects/ktdictseg/

результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:

Поиск реализации поиска с открытым исходным кодом, которая может работать с китайским языком.
Поиск обнаружения плагиата с открытым исходным кодом реализация, которая могла бы с китайским.