Обработка Естественного Языка-Выравнивание Слов
Я ищу инструменты и алгоритмы выравнивания слов.
Я имею дело с двуязычным англо-хинди текстом и в настоящее время работаю над
- DTW (динамическое искривление времени) алгоритм
- CLA (Конкурентный Алгоритм Связывания)
- NATools
- Гизе++
не могли бы вы предложить какие-либо другие алгоритм / инструмент, который не зависит от языка и который может достичь статистическое выравнивание слов для параллельных английских хинди корпусов и его оценка.
Некоторые инструменты лучше всего подходят для определенных языков; не могли бы вы сказать мне, насколько это верно, и если да, то не могли бы вы привести пример того, что лучше подходит для азиатских языков, таких как хинди. Встречные примеры того, что я не должен использовать для таких языков, также приветствуются.
Я слышал немного о выравниватель слова Uplug... Может кто-нибудь сказать мне, полезен ли этот инструмент для моей цели.
спасибо.. :)
4 ответов
на Berkeley Aligner очень хорошо. Выполняя совместное обучение моделей выравнивания IBM word, он может получить гораздо более низкую частоту ошибок выравнивания (AER), чем более старые пакеты, такие как GIZA++.
Он также поддерживает некоторые более продвинутые функции, такие как синтаксические искажения (т. е. использование информации дерева разбора для получения лучших выравниваний). Для этого вам понадобятся только деревья синтаксического анализа для одной из языковых пар. Итак, вы должны быть в порядке, делая хинди английский, так как есть множество свободно доступных и хороших английских парсеров.
Если вы решили не идти с выравнивателем Беркли, вы, вероятно, должны просто использовать GIZA++. В течение многих лет это было существенно стандартный Word aligner в сообществе машинного перевода.
Uplug-отличный инструмент, я использую его для выравнивания английскихмакедонских текстов. Он по существу основывается на giza++, добавляя так называемые выравнивания ключей. Это расширенная настройка фактически сочетает в себе выравнивания ключа и Giza++ и выполняет 3 такие итерации. Чем больше подсказок (pos-теги, леммы ... ) вы обеспечиваете лучшие результаты. Но я должен упомянуть, что вы не должны ожидать получить принципиально разные результаты, просто используя giza++.
в любом случае, если вы планируете серьезно изучить тему SMT, я предлагаю вам прочитать статью (кандидатскую диссертацию) о Uplug, это будет очень полезно для вас.
Моисей - это статистический набор машинного перевода, на который вы можете взглянуть. Его компонент выравнивания слов построен на GIZA++, но может быть изменен, чтобы работать лучше с определенными языковыми парами, чем чистая GIZA++. Их список рассылки и ресурсы, которые вы можете найти наhttp://www.statmt.org/ также может быть лучшим местом, чтобы задавать вопросы по этой теме, Чем так. Одна вещь, о которой вы ничего не сказали, но которую я бы счел еще более проблематичной, - это где получите параллельный корпус хинди английский.