Что такое формат данных CoNLL?
Я новичок в текстовом майнинге. Я использую jar с открытым исходным кодом (Mate Parser), который дает мне вывод в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я могу понять некоторые выходные данные, но не могу понять формат данных CoNLL. Может ли кто-нибудь помочь мне понять формат данных CoNLL?? Любые указатели будут оценены по достоинству.
1 ответов
есть много разных CoNLL форматы, так как CoNLL-это другая общая задача каждый год. Описан формат для CoNLL 2009 здесь. Каждая строка представляет собой одно слово с серией полей, разделенных вкладками. _s указывают пустые значения. руководство Mate-Parser говорит, что он использует первые 12 столбцов CoNLL 2009:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
определение некоторых из этих столбцов происходит из более ранних общих задач ( формат CoNLL-X использованный в 2006 и 2007):
-
ID(Index в предложении, начиная с 1) -
FORM(сама форма слова) -
LEMMA(Лемма или стебель слова) -
POS(части речи) -
FEAT(список морфологических признаков, разделенных|) -
HEAD(индекс синтаксического родителя, 0 дляROOT) -
DEPREL(синтаксическая связь междуHEADи это слово)
существуют варианты этих столбцов (например,PPOS а не POS), которые начинаются с P укажите, что значение было автоматически предсказано, а не значение золотого стандарта.
обновление: сейчас CoNLL-U формат данных, а также который расширяет формат CoNLL-X.