Что такое формат данных CoNLL?
Я новичок в текстовом майнинге. Я использую jar с открытым исходным кодом (Mate Parser), который дает мне вывод в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я могу понять некоторые выходные данные, но не могу понять формат данных CoNLL. Может ли кто-нибудь помочь мне понять формат данных CoNLL?? Любые указатели будут оценены по достоинству.
1 ответов
есть много разных CoNLL форматы, так как CoNLL-это другая общая задача каждый год. Описан формат для CoNLL 2009 здесь. Каждая строка представляет собой одно слово с серией полей, разделенных вкладками. _
s указывают пустые значения. руководство Mate-Parser говорит, что он использует первые 12 столбцов CoNLL 2009:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
определение некоторых из этих столбцов происходит из более ранних общих задач ( формат CoNLL-X использованный в 2006 и 2007):
-
ID
(Index в предложении, начиная с 1) -
FORM
(сама форма слова) -
LEMMA
(Лемма или стебель слова) -
POS
(части речи) -
FEAT
(список морфологических признаков, разделенных|) -
HEAD
(индекс синтаксического родителя, 0 дляROOT
) -
DEPREL
(синтаксическая связь междуHEAD
и это слово)
существуют варианты этих столбцов (например,PPOS
а не POS
), которые начинаются с P
укажите, что значение было автоматически предсказано, а не значение золотого стандарта.
обновление: сейчас CoNLL-U формат данных, а также который расширяет формат CoNLL-X.