Есть ли какой-либо хороший алгоритм сегментации с открытым исходным кодом или свободно доступный китайский? [закрытый]

как сформулировано в вопросе, я ищу бесплатный и/или алгоритм сегментации текста с открытым исходным кодом для китайского языка, я понимаю, что это очень сложная задача для решения, поскольку есть много двусмысленностей. Я знаю, что есть API google, но это скорее черный ящик, т. е. не так много информации о том, что он делает, проходит.

4 ответов


ключевое слово text-segmentation for Chinese должно быть 中文分词 по-китайски.

хороший и активный алгоритм сегментации текста с открытым исходным кодом :

  1. 盘古分词(сегмент Пан ГУ) : C#, Snapshot
  2. ИК-анализатора : Java
  3. ICTCLAS : C/C++, Java, C#, Demo
  4. NlpBamboo : C, PHP, PostgreSQL
  5. HTTPCWS : на ICTCLAS, Demo
  6. mmseg4j : Java
  7. fudannlp : Java, Demo
  8. smallseg : Python, Java, Demo
  9. nseg : NodeJS
  10. мини-сегментер: python

другое

  1. Код Google : http://code.google.com/query/#q=中文分词
  2. OSChina (Китай С Открытым Исходным Кодом)

пример

  1. Google Chrome (Хром) : src, cc_cedict.txt (73,145 Chinese words/pharases)

    • на text field или textarea of Google Chrome с китайскими предложениями, нажимать Ctrl+ или Ctrl+

    • Double click on 中文分词指的是将一个汉字序列切分成一个一个单独的词


сегмент Стэнфорда с использованием алгоритма CRF.

Это под GPL

страница ссылки:http://nlp.stanford.edu/software/segmenter.shtml


ICU сведения о универсальный текст сегментация - http://userguide.icu-project.org/boundaryanalysis


беглый поиск в гугле для "сегментации текста с открытым исходным кодом" показывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:

http://sourceforge.net/projects/ktdictseg/

результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:

  • Поиск реализации поиска с открытым исходным кодом, которая может работать с китайским языком.
  • Поиск обнаружения плагиата с открытым исходным кодом реализация, которая могла бы с китайским.