Что означают теги BILOU в распознавании именованных сущностей?

название в значительной степени подводит итог вопроса. Я заметил, что в некоторых работах люди ссылались на схему кодирования BILOU для NER в отличие от типичной схемы био-тегов (например, эта статья Ратинова и рота в 2009 году http://cogcomp.cs.illinois.edu/page/publication_view/199)

от работы с данными 2003 CoNLL я знаю, что

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

В то время как мне сказали, что слова в БИЛОУ означают

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

Я тоже видел, как люди ссылаются на другой тег

E - 'end'

и используйте его одновременно с тегом "last".

Я довольно новичок в литературе NER, но я не смог найти что-то ясно объясняющее эти теги. Мои вопросы, в частности, касаются того, в чем разница между тегами "last" и " end "и что означает тег "unit".

3 ответов


на основе вопрос и патч в Clear TK, похоже, BILOU означает " начало, внутри и последние токены мульти-маркер блоки, блоки длины блока и снаружи" (курсив добавлен). Например, фрагмент, обозначенный скобками

(foo foo foo) (bar) no no no (bar bar)

может быть закодирован с BILOU как

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar

Я хотел бы добавить некоторый опыт сравнения схем BIO и BILOU. Мой эксперимент был только на одном наборе данных и не могут быть репрезентативными.

мой набор данных содержит около 35 тысяч коротких высказываний (2-10 токенов) и аннотируется с использованием 11 различных тегов. Другими словами, существует 11 именованных сущностей.

используемые функции включают слово, левый и правый 2-граммы, 1-5 символов ngrams (кроме средних), особенности формы и так далее. Несколько сущностей справочник и тоже отступил.

я перетасовал набор данных и разделил его на 80/20 частей: обучение и тестирование. Этот процесс повторялся 5 раз, и для каждого объекта я записывал точность, отзыв и F1-меру. Производительность была измерена на уровне сущности, а не на уровне токенов, как в документе Ratinov & Roth, 2009.

программы я использовал для обучения модели является не. Я использовал решатель L-BFGS с c1=0 и c2=1.

прежде всего, результаты теста сравненные для 5 створок очень подобный. Это означает, что от бега к бегу мало изменчивости, что хорошо. Во-вторых, био-схема выполнена очень похоже на схему БИЛОУ. Если есть какая-то существенная разница, возможно, это на третьей или четвертой цифре после периода точности, отзыва и F1-мер.

вывод: в моем эксперименте схема БИЛОУ не лучше (но и не хуже), чем схема био.


B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole

BILOU то же самое с BMEWO.

существует также BMEWO+, который помещает больше информации об окружающем классе слов во внешние токены (таким образом, "o plus")

Подробнее см. здесь https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/