Имеет ли WordNet "уровни"? (НЛП)

например...

курица-это животные.
Буррито-это еда.

WordNet позволяет вам делать "is-a"...в hiearchy характеристика.

однако, как я могу знать, когда перестать путешествовать по дереву? Я хочу уровень.
Это логично.

например, если представлено множество слов, я хочу, чтобы wordNet классифицировал их все, но на определенном уровне,поэтому он не заходит слишком далеко. Категоризация "буррито" как "вещь" слишком широк, но "мексиканская завернутая еда" слишком специфична. Я хочу пойти в hiearchy или вниз..до нужного уровня.

4 ответов


WordNet-это лексикон, а не онтология, поэтому "уровни" на самом деле не применяются.

здесь сумо, который является верхней онтологией, которая относится к WordNet, если вы хотите направленную решетку вместо сети.

для некоторых областей онтология среднего уровня сумо, вероятно, там, где вы хотите посмотреть, но я не уверен, что у нее есть "мексиканская обернутая еда", поскольку большинство ее тем являются научными или инженерными.

иерархия WordNet is

beef burrito < burrito < dish/2 < victuals < food < substance < entity. 

сущность-это концепция верхнего уровня,поэтому, если вы остановите вещество на один ниже, вы получите буррито Иза. Вы можете рассчитать уровень на основе этого, но он не обязательно будет таким же последовательным, как сумо, или создать свой собственный набор полезных концепций среднего уровня, чтобы закончить. В WordNet нет шага "мексиканская завернутая еда".


[пожалуйста, кредит Пит Киркхем, Он сначала пришел со ссылкой на сумо, который вполне может ответить на вопрос, заданный Алексом, OP]

(Я просто предоставляю дополнение информации здесь; я начал в поле комментариев, но вскоре закончились пространство и макет capabilites...)

Алекс: большая часть сумо-это наука или техника? Он не содержит повседневных слов, таких как еда, люди, автомобили, работа и т. д.?
Пит K: сумо-это верхняя онтология. Онтологии среднего уровня (где вы найдете понятия между "вещью" и "говяжьим буррито"), перечисленные на странице, не включают еду, но отражают виды организаций, которые финансируют проект. Существует онтология среднего уровня для людей. Есть также один для отраслей (и, следовательно, рабочих мест), в том числе поставщиков продуктов питания, но нет упоминания о буррито, если вы grep это.

мои два цента
100% из WordNet (3,0 т. е. последние, а также более старые версии) является соотнесенные сумо и тому мая просто будь тем, что нужно Алексу. Онтологии среднего уровня, связанные с сумо (или, скорее, с Мило), эффективно находятся в определенных областях и в настоящее время не включают продукты питания, но поскольку WordNet делает (включает все-ну, многие из этих повседневных вещей) , вам не нужно использовать какую-либо формальную онтологию "под" сумо, а вместо этого использовать отображение WordNet Сумо (возможно, в дополнение к WordNet, который, опять же,, это не онтология, но с ее неформальной и свободной "иерархией" также может помочь.

некоторые трудности могут возникнуть, однако, из двух областей (а затем некоторые ; -)?):

  • "уровень" онтологии сумо может быть не тем уровнем, который вы имели бы в виду для своего конкретного приложения. Например, пока "Буррито" приносит "еда", на высшем уровне сущности в сумо"курица" приносит хорошо "курица " который только через длинный цепочка находит"животные "(в частности: Курица- > птица - >птица - >Warm_Blooded_Vertebrae - >позвонки - >животное).
  • охват и метаданные Wordnet впечатляют, но в отношении концепций среднего уровня могут быть немного непоследовательными. Например, "наш" Буррито-это соответственно "блюдо", которое предоставляет ему около 140 пищевых блюд, которые включают в себя такие дженерики, как" суп "или" запеканка", а также" Курица Маренго "(но опуская " курица Cacciatore")

моя точка зрения, поднимая эти вопросы, заключается не в том, чтобы критиковать WordNet или SUMO и связанные с ними онтологии, а скорее в том, чтобы проиллюстрировать просто некоторые из проблем, связанных с построением онтологии, особенно на среднем уровне.

независимо от некоторых возможных недостатков и недостатков решения, основанного на сумо и WordNet, прагматичное использование этих фреймворков вполне может "соответствовать счету" (85% времени)


для того, чтобы получить уровни, вам нужно предопределить содержание каждого уровня. Онтология часто определяет их как непосредственные дети IS_A определенного понятия, но если это отсутствует, вам нужно разработать метод этого самостоятельно.

следующий шаг - установить приоритет для каждого понятия, если вы хотите представить только одну категорию для каждого слова. Приоритет может быть выполнен несколькими способами, например, как количество отношений IS_A между категорией и словом, или вручную выбранные приоритеты для каждой категории. Для каждого слова вы можете выбрать категорию с наивысшим приоритетом. Например, вы можете захотеть, чтобы мясо было "пищей", а не химическим веществом.

вы также можете выбрать несколько слов, которые меняют приоритет, если они находятся в пути. Например, если вы хотите, чтобы некоторые химические вещества, которые также являются пищей, были объявлены химическими веществами, но другие все равно должны быть пищей.


hypernym дерево WordNet заканчивается одним корневым синтезатором для слова "сущность". Если вы используете библиотеку C WordNet, то вы можете получить рекурсивную структуру while для предков synset, используя traceptrs_ds, и вы можете получить все дерево synset рекурсивно следующим nextss и ptrlst указатели, пока вы не нажмете null указатели.