Есть ли какой-либо хороший алгоритм сегментации с открытым исходным кодом или свободно доступный китайский? [закрытый]
как сформулировано в вопросе, я ищу бесплатный и/или алгоритм сегментации текста с открытым исходным кодом для китайского языка, я понимаю, что это очень сложная задача для решения, поскольку есть много двусмысленностей. Я знаю, что есть API google, но это скорее черный ящик, т. е. не так много информации о том, что он делает, проходит.
4 ответов
ключевое слово text-segmentation for Chinese
должно быть 中文分词
по-китайски.
хороший и активный алгоритм сегментации текста с открытым исходным кодом :
-
盘古分词(сегмент Пан ГУ) :
C#
,Snapshot
-
ИК-анализатора :
Java
-
ICTCLAS :
C/C++, Java, C#
,Demo
-
NlpBamboo :
C, PHP, PostgreSQL
-
HTTPCWS : на
ICTCLAS
,Demo
-
mmseg4j :
Java
-
fudannlp :
Java
,Demo
-
smallseg :
Python, Java
,Demo
- nseg : NodeJS
-
мини-сегментер:
python
другое
пример
-
Google Chrome (Хром) :
src
,cc_cedict.txt (73,145 Chinese words/pharases)
на
text field
илиtextarea
of Google Chrome с китайскими предложениями, нажимать Ctrl+← или Ctrl+→Double click
on中文分词指的是将一个汉字序列切分成一个一个单独的词
сегмент Стэнфорда с использованием алгоритма CRF.
Это под GPL
страница ссылки:http://nlp.stanford.edu/software/segmenter.shtml
ICU сведения о универсальный текст сегментация - http://userguide.icu-project.org/boundaryanalysis
беглый поиск в гугле для "сегментации текста с открытым исходным кодом" показывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:
http://sourceforge.net/projects/ktdictseg/
результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:
- Поиск реализации поиска с открытым исходным кодом, которая может работать с китайским языком.
- Поиск обнаружения плагиата с открытым исходным кодом реализация, которая могла бы с китайским.