Что такое формат данных CoNLL?

Question

Что такое формат данных CoNLL?

Я новичок в текстовом майнинге. Я использую jar с открытым исходным кодом (Mate Parser), который дает мне вывод в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я могу понять некоторые выходные данные, но не могу понять формат данных CoNLL. Может ли кто-нибудь помочь мне понять формат данных CoNLL?? Любые указатели будут оценены по достоинству.

40

information-extraction nlp text-mining text-parsing

автор: swapna sourav rout

1 ответов

автор: dmcc · Accepted Answer · 2015-05-15 22:47:16

есть много разных CoNLL форматы, так как CoNLL-это другая общая задача каждый год. Описан формат для CoNLL 2009 здесь. Каждая строка представляет собой одно слово с серией полей, разделенных вкладками. _s указывают пустые значения. руководство Mate-Parser говорит, что он использует первые 12 столбцов CoNLL 2009:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

определение некоторых из этих столбцов происходит из более ранних общих задач ( формат CoNLL-X использованный в 2006 и 2007):

ID (Index в предложении, начиная с 1)
FORM (сама форма слова)
LEMMA (Лемма или стебель слова)
POS (части речи)
FEAT (список морфологических признаков, разделенных|)
HEAD (индекс синтаксического родителя, 0 для ROOT)
DEPREL (синтаксическая связь между HEAD и это слово)

существуют варианты этих столбцов (например,PPOS а не POS), которые начинаются с P укажите, что значение было автоматически предсказано, а не значение золотого стандарта.

обновление: сейчас CoNLL-U формат данных, а также который расширяет формат CoNLL-X.