Что такое формат данных CoNLL?

Я новичок в текстовом майнинге. Я использую jar с открытым исходным кодом (Mate Parser), который дает мне вывод в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я могу понять некоторые выходные данные, но не могу понять формат данных CoNLL. Может ли кто-нибудь помочь мне понять формат данных CoNLL?? Любые указатели будут оценены по достоинству.

1 ответов


есть много разных CoNLL форматы, так как CoNLL-это другая общая задача каждый год. Описан формат для CoNLL 2009 здесь. Каждая строка представляет собой одно слово с серией полей, разделенных вкладками. _s указывают пустые значения. руководство Mate-Parser говорит, что он использует первые 12 столбцов CoNLL 2009:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

определение некоторых из этих столбцов происходит из более ранних общих задач ( формат CoNLL-X использованный в 2006 и 2007):

  • ID (Index в предложении, начиная с 1)
  • FORM (сама форма слова)
  • LEMMA (Лемма или стебель слова)
  • POS (части речи)
  • FEAT (список морфологических признаков, разделенных|)
  • HEAD (индекс синтаксического родителя, 0 для ROOT)
  • DEPREL (синтаксическая связь между HEAD и это слово)

существуют варианты этих столбцов (например,PPOS а не POS), которые начинаются с P укажите, что значение было автоматически предсказано, а не значение золотого стандарта.

обновление: сейчас CoNLL-U формат данных, а также который расширяет формат CoNLL-X.