Алгоритмы переноса слов для японского языка

в последнее веб-приложение я построил, я был приятно удивлен, когда один из наших пользователей решил использовать его для создания чего-то полностью на японском. Однако текст был завернут странно и неуклюже. По-видимому, браузеры не очень хорошо справляются с обертыванием японского текста, вероятно, потому, что он содержит несколько пробелов, так как каждый символ образует целое слово. Однако это не совсем безопасное предположение, поскольку некоторые слова построены из нескольких символов, и небезопасно ломать некоторые символы группируются в разные строки.

Googling вокруг действительно не помог мне понять проблему лучше. Мне кажется, что нужен словарь нерушимых паттернов и предположим, что все остальное безопасно сломать. Но, боюсь, я недостаточно хорошо знаю японский, чтобы понять, что все слова, которые я понимаю из некоторых моих поисков, довольно сложны.

Как бы вы подошли к этой проблеме? Существуют ли какие-либо библиотеки или алгоритмы вы знаете о том, что уже существуют, которые справляются с этим удовлетворительным образом?

1 ответов


японские правила переноса слов называются кинсоку Шори и удивительно просты. На самом деле они в основном связаны с пунктуационными символами и вообще не пытаются сохранить слова.

Я только что проверил с японским Романом и действительно, оба слова в силлабическом сценарии Кана и те, которые состоят из нескольких китайских иероглифов, завернуты в середине слова безнаказанно.