Есть ли какой-либо хороший алгоритм сегментации с открытым исходным кодом или свободно доступный китайский? [закрытый]
как сформулировано в вопросе, я ищу бесплатный и/или алгоритм сегментации текста с открытым исходным кодом для китайского языка, я понимаю, что это очень сложная задача для решения, поскольку есть много двусмысленностей. Я знаю, что есть API google, но это скорее черный ящик, т. е. не так много информации о том, что он делает, проходит.
4 ответов
ключевое слово text-segmentation for Chinese должно быть 中文分词 по-китайски.
хороший и активный алгоритм сегментации текста с открытым исходным кодом :
-
盘古分词(сегмент Пан ГУ) :
C#,Snapshot -
ИК-анализатора :
Java -
ICTCLAS :
C/C++, Java, C#,Demo -
NlpBamboo :
C, PHP, PostgreSQL -
HTTPCWS : на
ICTCLAS,Demo -
mmseg4j :
Java -
fudannlp :
Java,Demo -
smallseg :
Python, Java,Demo - nseg : NodeJS
-
мини-сегментер:
python
другое
пример
-
Google Chrome (Хром) :
src,cc_cedict.txt (73,145 Chinese words/pharases)на
text fieldилиtextareaof Google Chrome с китайскими предложениями, нажимать Ctrl+← или Ctrl+→Double clickon中文分词指的是将一个汉字序列切分成一个一个单独的词
сегмент Стэнфорда с использованием алгоритма CRF.
Это под GPL
страница ссылки:http://nlp.stanford.edu/software/segmenter.shtml
ICU сведения о универсальный текст сегментация - http://userguide.icu-project.org/boundaryanalysis
беглый поиск в гугле для "сегментации текста с открытым исходным кодом" показывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:
http://sourceforge.net/projects/ktdictseg/
результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:
- Поиск реализации поиска с открытым исходным кодом, которая может работать с китайским языком.
- Поиск обнаружения плагиата с открытым исходным кодом реализация, которая могла бы с китайским.