Как превратить множественное число в единственное число?
Я готовлю некоторые имена таблиц для ORM, и я хочу превратить имена множественных таблиц в имена отдельных сущностей. Моя единственная проблема-найти алгоритм, который делает это надежно. Вот что я сейчас делаю:--1-->
- Если слово заканчивается - ies, я заменяю окончание на - y
- Если слово заканчивается - es, Я удаляю этот конец. Однако это не всегда работает - например, он заменяет типы С тип
- в противном случае, я просто удалите символы - s
кто-нибудь знает лучший алгоритм?
13 ответов
Это все общие правила (и хорошие), но английский язык не является языком для слабонервных :-).
мое собственное предпочтение было бы иметь механизм преобразования вместе с набором преобразований (что удивительно) для выполнения фактической работы.
вы должны выполнить преобразования (от конкретного к общему) и, когда будет найдено совпадение, применить преобразование к слову.
регулярные выражения были бы идеальным подходом к этому благодаря своей выразительности. Пример набора правил:
1. If the word is fish, return fish.
2. If the word is sheep, return sheep.
3. If the word is "radii", return "radius".
4. If the word is "types", return "type".
5. If the word ends in "ii", replace that "ii" with "us" (octopii,virii).
: : : : :
97. If a word ends with -ies, I replace the ending with -y
98. If a word ends with -es, I remove this ending.
99. Otherwise, I just remove the trailing -s.
обратите внимание, что более ранняя версия правил не может иметь номер 4. Однако, когда мы обнаружили проблему с преобразованием "типов" в " тип " в 98, мы затем создали преобразование с более высоким приоритетом в 4, чтобы удовлетворить это.
вам в основном нужно будет обновить эту таблицу преобразований, поскольку вы найдете все эти удивительные исключения, которые породил английский язык.
другой возможность не тратить время на правило. Поскольку имена таблиц будут относительно ограничены, просто создайте другую таблицу (или какую-то структуру данных) под названием singulars
который отображает все соответствующие имена таблиц множественного числа (employees
) к именам сингулярных объектов (employee
).
затем каждый раз, когда таблица добавляется, добавляется запись единственного "стол", так что вы можете выделить его.
проблема в том, что это основано на общих правилах, но английский язык имеет (образно) миллиард исключений... Что вы делаете со словами типа "рыба"или " гуси"?
кроме того, правила предназначены для того, как превратить единичные существительные в множественное число. Обратное отображение не обязательно возможно (рассмотрим "халявы").
У Эндрю Питерса есть класс под названием Inflector.NET который предоставляет методы множественного числа-единственного числа и единственного числа-множественного числа. Как отметил Тал, ни один алгоритм не является непогрешимым, но это охватывает приличное количество неправильных английских существительных.
см. также ответ, который рекомендует использовать Morpha (или изучать алгоритм за ним).
Если вы знаете, что слова, которые вы хотите лемматизировать, являются множественными существительными, вы можете пометить их NNS
получить более точный выход.
ввод пример:
$ cat test.txt
Types_NNS
Pies_NNS
Trees_NNS
Buses_NNS
Radii_NNS
Communities_NNS
Sheep_NNS
Fish_NNS
выход пример:
$ cat test.txt | ./morpha -c
Type
Pie
Tree
Bus
Radius
Community
Sheep
Fish
в качестве улучшения вы можете использовать правила, которые генерируют несколько возможностей, а затем искать результаты в словаре, чтобы отсеять невозможные варианты.
например, замените-ies на-y и-ie. Пироги становятся пирогами. Только один из них есть в словаре, так что выбирайте тот.
возможно, вы даже можете найти словарь с информацией о частоте и выбрать наиболее распространенное слово, которое вы создаете.
Если вы объедините это с упорядоченным списком правила, которые охватывают несколько исключений, вы можете получить довольно хорошую точность.
Возможно, вам это нужно, он работает хорошо, если вы знаете, как использовать php-скрипт.Он может превращать слова множественного числа в отдельные слова и превращать отдельные слова в слова множественного числа.
class BaseInflector
{
/**
* @var array the rules for converting a word into its plural form.
* The keys are the regular expressions and the values are the corresponding replacements.
*/
public static $plurals = [
'/([nrlm]ese|deer|fish|sheep|measles|ois|pox|media)$/i' => '',
'/^(sea[- ]bass)$/i' => '',
'/(m)ove$/i' => 'oves',
'/(f)oot$/i' => 'eet',
'/(h)uman$/i' => 'umans',
'/(s)tatus$/i' => 'tatuses',
'/(s)taff$/i' => 'taff',
'/(t)ooth$/i' => 'eeth',
'/(quiz)$/i' => 'zes',
'/^(ox)$/i' => 'en',
'/([m|l])ouse$/i' => 'ice',
'/(matr|vert|ind)(ix|ex)$/i' => 'ices',
'/(x|ch|ss|sh)$/i' => 'es',
'/([^aeiouy]|qu)y$/i' => 'ies',
'/(hive)$/i' => 's',
'/(?:([^f])fe|([lr])f)$/i' => 'ves',
'/sis$/i' => 'ses',
'/([ti])um$/i' => 'a',
'/(p)erson$/i' => 'eople',
'/(m)an$/i' => 'en',
'/(c)hild$/i' => 'hildren',
'/(buffal|tomat|potat|ech|her|vet)o$/i' => 'oes',
'/(alumn|bacill|cact|foc|fung|nucle|radi|stimul|syllab|termin|vir)us$/i' => 'i',
'/us$/i' => 'uses',
'/(alias)$/i' => 'es',
'/(ax|cris|test)is$/i' => 'es',
'/s$/' => 's',
'/^$/' => '',
'/$/' => 's',
];
/**
* @var array the rules for converting a word into its singular form.
* The keys are the regular expressions and the values are the corresponding replacements.
*/
public static $singulars = [
'/([nrlm]ese|deer|fish|sheep|measles|ois|pox|media|ss)$/i' => '',
'/^(sea[- ]bass)$/i' => '',
'/(s)tatuses$/i' => 'tatus',
'/(f)eet$/i' => 'oot',
'/(t)eeth$/i' => 'ooth',
'/^(.*)(menu)s$/i' => '',
'/(quiz)zes$/i' => '\1',
'/(matr)ices$/i' => 'ix',
'/(vert|ind)ices$/i' => 'ex',
'/^(ox)en/i' => '',
'/(alias)(es)*$/i' => '',
'/(alumn|bacill|cact|foc|fung|nucle|radi|stimul|syllab|termin|viri?)i$/i' => 'us',
'/([ftw]ax)es/i' => '',
'/(cris|ax|test)es$/i' => 'is',
'/(shoe|slave)s$/i' => '',
'/(o)es$/i' => '',
'/ouses$/' => 'ouse',
'/([^a])uses$/' => 'us',
'/([m|l])ice$/i' => 'ouse',
'/(x|ch|ss|sh)es$/i' => '',
'/(m)ovies$/i' => 'ovie',
'/(s)eries$/i' => 'eries',
'/([^aeiouy]|qu)ies$/i' => 'y',
'/([lr])ves$/i' => 'f',
'/(tive)s$/i' => '',
'/(hive)s$/i' => '',
'/(drive)s$/i' => '',
'/([^fo])ves$/i' => 'fe',
'/(^analy)ses$/i' => 'sis',
'/(analy|diagno|^ba|(p)arenthe|(p)rogno|(s)ynop|(t)he)ses$/i' => 'sis',
'/([ti])a$/i' => 'um',
'/(p)eople$/i' => 'erson',
'/(m)en$/i' => 'an',
'/(c)hildren$/i' => 'hild',
'/(n)ews$/i' => 'ews',
'/(n)etherlands$/i' => 'etherlands',
'/eaus$/' => 'eau',
'/^(.*us)$/' => '\1',
'/s$/i' => '',
];
/**
* @var array the special rules for converting a word between its plural form and singular form.
* The keys are the special words in singular form, and the values are the corresponding plural form.
*/
public static $specials = [
'atlas' => 'atlases',
'beef' => 'beefs',
'brother' => 'brothers',
'cafe' => 'cafes',
'child' => 'children',
'cookie' => 'cookies',
'corpus' => 'corpuses',
'cow' => 'cows',
'curve' => 'curves',
'foe' => 'foes',
'ganglion' => 'ganglions',
'genie' => 'genies',
'genus' => 'genera',
'graffito' => 'graffiti',
'hoof' => 'hoofs',
'loaf' => 'loaves',
'man' => 'men',
'money' => 'monies',
'mongoose' => 'mongooses',
'move' => 'moves',
'mythos' => 'mythoi',
'niche' => 'niches',
'numen' => 'numina',
'occiput' => 'occiputs',
'octopus' => 'octopuses',
'opus' => 'opuses',
'ox' => 'oxen',
'penis' => 'penises',
'sex' => 'sexes',
'soliloquy' => 'soliloquies',
'testis' => 'testes',
'trilby' => 'trilbys',
'turf' => 'turfs',
'wave' => 'waves',
'Amoyese' => 'Amoyese',
'bison' => 'bison',
'Borghese' => 'Borghese',
'bream' => 'bream',
'breeches' => 'breeches',
'britches' => 'britches',
'buffalo' => 'buffalo',
'cantus' => 'cantus',
'carp' => 'carp',
'chassis' => 'chassis',
'clippers' => 'clippers',
'cod' => 'cod',
'coitus' => 'coitus',
'Congoese' => 'Congoese',
'contretemps' => 'contretemps',
'corps' => 'corps',
'debris' => 'debris',
'diabetes' => 'diabetes',
'djinn' => 'djinn',
'eland' => 'eland',
'elk' => 'elk',
'equipment' => 'equipment',
'Faroese' => 'Faroese',
'flounder' => 'flounder',
'Foochowese' => 'Foochowese',
'gallows' => 'gallows',
'Genevese' => 'Genevese',
'Genoese' => 'Genoese',
'Gilbertese' => 'Gilbertese',
'graffiti' => 'graffiti',
'headquarters' => 'headquarters',
'herpes' => 'herpes',
'hijinks' => 'hijinks',
'Hottentotese' => 'Hottentotese',
'information' => 'information',
'innings' => 'innings',
'jackanapes' => 'jackanapes',
'Kiplingese' => 'Kiplingese',
'Kongoese' => 'Kongoese',
'Lucchese' => 'Lucchese',
'mackerel' => 'mackerel',
'Maltese' => 'Maltese',
'mews' => 'mews',
'moose' => 'moose',
'mumps' => 'mumps',
'Nankingese' => 'Nankingese',
'news' => 'news',
'nexus' => 'nexus',
'Niasese' => 'Niasese',
'Pekingese' => 'Pekingese',
'Piedmontese' => 'Piedmontese',
'pincers' => 'pincers',
'Pistoiese' => 'Pistoiese',
'pliers' => 'pliers',
'Portuguese' => 'Portuguese',
'proceedings' => 'proceedings',
'rabies' => 'rabies',
'rice' => 'rice',
'rhinoceros' => 'rhinoceros',
'salmon' => 'salmon',
'Sarawakese' => 'Sarawakese',
'scissors' => 'scissors',
'series' => 'series',
'Shavese' => 'Shavese',
'shears' => 'shears',
'siemens' => 'siemens',
'species' => 'species',
'swine' => 'swine',
'testes' => 'testes',
'trousers' => 'trousers',
'trout' => 'trout',
'tuna' => 'tuna',
'Vermontese' => 'Vermontese',
'Wenchowese' => 'Wenchowese',
'whiting' => 'whiting',
'wildebeest' => 'wildebeest',
'Yengeese' => 'Yengeese',
];
/**
* @var array fallback map for transliteration used by [[transliterate()]] when intl isn't available.
*/
public static $transliteration = [
'À' => 'A', 'Á' => 'A', 'Â' => 'A', 'Ã' => 'A', 'Ä' => 'A', 'Å' => 'A', 'Æ' => 'AE', 'Ç' => 'C',
'È' => 'E', 'É' => 'E', 'Ê' => 'E', 'Ë' => 'E', 'Ì' => 'I', 'Í' => 'I', 'Î' => 'I', 'Ï' => 'I',
'Ð' => 'D', 'Ñ' => 'N', 'Ò' => 'O', 'Ó' => 'O', 'Ô' => 'O', 'Õ' => 'O', 'Ö' => 'O', 'Ő' => 'O',
'Ø' => 'O', 'Ù' => 'U', 'Ú' => 'U', 'Û' => 'U', 'Ü' => 'U', 'Ű' => 'U', 'Ý' => 'Y', 'Þ' => 'TH',
'ß' => 'ss',
'à' => 'a', 'á' => 'a', 'â' => 'a', 'ã' => 'a', 'ä' => 'a', 'å' => 'a', 'æ' => 'ae', 'ç' => 'c',
'è' => 'e', 'é' => 'e', 'ê' => 'e', 'ë' => 'e', 'ì' => 'i', 'í' => 'i', 'î' => 'i', 'ï' => 'i',
'ð' => 'd', 'ñ' => 'n', 'ò' => 'o', 'ó' => 'o', 'ô' => 'o', 'õ' => 'o', 'ö' => 'o', 'ő' => 'o',
'ø' => 'o', 'ù' => 'u', 'ú' => 'u', 'û' => 'u', 'ü' => 'u', 'ű' => 'u', 'ý' => 'y', 'þ' => 'th',
'ÿ' => 'y',
];
/**
* Shortcut for `Any-Latin; NFKD` transliteration rule. The rule is strict, letters will be transliterated with
* the closest sound-representation chars. The result may contain any UTF-8 chars. For example:
* `获取到 どちら Українська: ґ,є, Српска: ђ, њ, џ! ¿Español?` will be transliterated to
* `huò qǔ dào dochira Ukraí̈nsʹka: g̀,ê, Srpska: đ, n̂, d̂! ¿Español?`
*
* Used in [[transliterate()]].
* For detailed information see [unicode normalization forms](http://unicode.org/reports/tr15/#Normalization_Forms_Table)
* @see http://unicode.org/reports/tr15/#Normalization_Forms_Table
* @see transliterate()
* @since 2.0.7
*/
const TRANSLITERATE_STRICT = 'Any-Latin; NFKD';
/**
* Shortcut for `Any-Latin; Latin-ASCII` transliteration rule. The rule is medium, letters will be
* transliterated to characters of Latin-1 (ISO 8859-1) ASCII table. For example:
* `获取到 どちら Українська: ґ,є, Српска: ђ, њ, џ! ¿Español?` will be transliterated to
* `huo qu dao dochira Ukrainsʹka: g,e, Srpska: d, n, d! ¿Espanol?`
*
* Used in [[transliterate()]].
* For detailed information see [unicode normalization forms](http://unicode.org/reports/tr15/#Normalization_Forms_Table)
* @see http://unicode.org/reports/tr15/#Normalization_Forms_Table
* @see transliterate()
* @since 2.0.7
*/
const TRANSLITERATE_MEDIUM = 'Any-Latin; Latin-ASCII';
/**
* Shortcut for `Any-Latin; Latin-ASCII; [\u0080-\uffff] remove` transliteration rule. The rule is loose,
* letters will be transliterated with the characters of Basic Latin Unicode Block.
* For example:
* `获取到 どちら Українська: ґ,є, Српска: ђ, њ, џ! ¿Español?` will be transliterated to
* `huo qu dao dochira Ukrainska: g,e, Srpska: d, n, d! Espanol?`
*
* Used in [[transliterate()]].
* For detailed information see [unicode normalization forms](http://unicode.org/reports/tr15/#Normalization_Forms_Table)
* @see http://unicode.org/reports/tr15/#Normalization_Forms_Table
* @see transliterate()
* @since 2.0.7
*/
const TRANSLITERATE_LOOSE = 'Any-Latin; Latin-ASCII; [\u0080-\uffff] remove';
/**
* @var mixed Either a [[\Transliterator]], or a string from which a [[\Transliterator]] can be built
* for transliteration. Used by [[transliterate()]] when intl is available. Defaults to [[TRANSLITERATE_LOOSE]]
* @see http://php.net/manual/en/transliterator.transliterate.php
*/
public static $transliterator = self::TRANSLITERATE_LOOSE;
/**
* Converts a word to its plural form.
* Note that this is for English only!
* For example, 'apple' will become 'apples', and 'child' will become 'children'.
* @param string $word the word to be pluralized
* @return string the pluralized word
*/
public static function pluralize($word)
{
if (isset(static::$specials[$word])) {
return static::$specials[$word];
}
foreach (static::$plurals as $rule => $replacement) {
if (preg_match($rule, $word)) {
return preg_replace($rule, $replacement, $word);
}
}
return $word;
}
/**
* Returns the singular of the $word
* @param string $word the english word to singularize
* @return string Singular noun.
*/
public static function singularize($word)
{
$result = array_search($word, static::$specials, true);
if ($result !== false) {
return $result;
}
foreach (static::$singulars as $rule => $replacement) {
if (preg_match($rule, $word)) {
return preg_replace($rule, $replacement, $word);
}
}
return $word;
}
/**
* Converts an underscored or CamelCase word into a English
* sentence.
* @param string $words
* @param boolean $ucAll whether to set all words to uppercase
* @return string
*/
public static function titleize($words, $ucAll = false)
{
$words = static::humanize(static::underscore($words), $ucAll);
return $ucAll ? ucwords($words) : ucfirst($words);
}
/**
* Returns given word as CamelCased
* Converts a word like "send_email" to "SendEmail". It
* will remove non alphanumeric character from the word, so
* "who's online" will be converted to "WhoSOnline"
* @see variablize()
* @param string $word the word to CamelCase
* @return string
*/
public static function camelize($word)
{
return str_replace(' ', '', ucwords(preg_replace('/[^A-Za-z0-9]+/', ' ', $word)));
}
/**
* Converts a CamelCase name into space-separated words.
* For example, 'PostTag' will be converted to 'Post Tag'.
* @param string $name the string to be converted
* @param boolean $ucwords whether to capitalize the first letter in each word
* @return string the resulting words
*/
public static function camel2words($name, $ucwords = true)
{
$label = trim(strtolower(str_replace([
'-',
'_',
'.'
], ' ', preg_replace('/(?<![A-Z])[A-Z]/', ' ', $name))));
return $ucwords ? ucwords($label) : $label;
}
/**
* Converts a CamelCase name into an ID in lowercase.
* Words in the ID may be concatenated using the specified character (defaults to '-').
* For example, 'PostTag' will be converted to 'post-tag'.
* @param string $name the string to be converted
* @param string $separator the character used to concatenate the words in the ID
* @param boolean|string $strict whether to insert a separator between two consecutive uppercase chars, defaults to false
* @return string the resulting ID
*/
public static function camel2id($name, $separator = '-', $strict = false)
{
$regex = $strict ? '/[A-Z]/' : '/(?<![A-Z])[A-Z]/';
if ($separator === '_') {
return trim(strtolower(preg_replace($regex, '_', $name)), '_');
} else {
return trim(strtolower(str_replace('_', $separator, preg_replace($regex, $separator . '', $name))), $separator);
}
}
/**
* Converts an ID into a CamelCase name.
* Words in the ID separated by `$separator` (defaults to '-') will be concatenated into a CamelCase name.
* For example, 'post-tag' is converted to 'PostTag'.
* @param string $id the ID to be converted
* @param string $separator the character used to separate the words in the ID
* @return string the resulting CamelCase name
*/
public static function id2camel($id, $separator = '-')
{
return str_replace(' ', '', ucwords(implode(' ', explode($separator, $id))));
}
/**
* Converts any "CamelCased" into an "underscored_word".
* @param string $words the word(s) to underscore
* @return string
*/
public static function underscore($words)
{
return strtolower(preg_replace('/(?<=\w)([A-Z])/', '_\1', $words));
}
/**
* Returns a human-readable string from $word
* @param string $word the string to humanize
* @param boolean $ucAll whether to set all words to uppercase or not
* @return string
*/
public static function humanize($word, $ucAll = false)
{
$word = str_replace('_', ' ', preg_replace('/_id$/', '', $word));
return $ucAll ? ucwords($word) : ucfirst($word);
}
/**
* Same as camelize but first char is in lowercase.
* Converts a word like "send_email" to "sendEmail". It
* will remove non alphanumeric character from the word, so
* "who's online" will be converted to "whoSOnline"
* @param string $word to lowerCamelCase
* @return string
*/
public static function variablize($word)
{
$word = static::camelize($word);
return strtolower($word[0]) . substr($word, 1);
}
/**
* Converts a class name to its table name (pluralized)
* naming conventions. For example, converts "Person" to "people"
* @param string $className the class name for getting related table_name
* @return string
*/
public static function tableize($className)
{
return static::pluralize(static::underscore($className));
}
/**
* Returns a string with all spaces converted to given replacement,
* non word characters removed and the rest of characters transliterated.
*
* If intl extension isn't available uses fallback that converts latin characters only
* and removes the rest. You may customize characters map via $transliteration property
* of the helper.
*
* @param string $string An arbitrary string to convert
* @param string $replacement The replacement to use for spaces
* @param boolean $lowercase whether to return the string in lowercase or not. Defaults to `true`.
* @return string The converted string.
*/
public static function slug($string, $replacement = '-', $lowercase = true)
{
$string = static::transliterate($string);
$string = preg_replace('/[^a-zA-Z0-9=\s—–-]+/u', '', $string);
$string = preg_replace('/[=\s—–-]+/u', $replacement, $string);
$string = trim($string, $replacement);
return $lowercase ? strtolower($string) : $string;
}
/**
* Returns transliterated version of a string.
*
* If intl extension isn't available uses fallback that converts latin characters only
* and removes the rest. You may customize characters map via $transliteration property
* of the helper.
*
* @param string $string input string
* @param string|\Transliterator $transliterator either a [[Transliterator]] or a string
* from which a [[Transliterator]] can be built.
* @return string
* @since 2.0.7 this method is public.
*/
public static function transliterate($string, $transliterator = null)
{
if (static::hasIntl()) {
if ($transliterator === null) {
$transliterator = static::$transliterator;
}
return transliterator_transliterate($transliterator, $string);
} else {
return strtr($string, static::$transliteration);
}
}
/**
* @return boolean if intl extension is loaded
*/
protected static function hasIntl()
{
return extension_loaded('intl');
}
/**
* Converts a table name to its class name. For example, converts "people" to "Person"
* @param string $tableName
* @return string
*/
public static function classify($tableName)
{
return static::camelize(static::singularize($tableName));
}
/**
* Converts number to its ordinal English form. For example, converts 13 to 13th, 2 to 2nd ...
* @param integer $number the number to get its ordinal value
* @return string
*/
public static function ordinalize($number)
{
if (in_array($number % 100, range(11, 13))) {
return $number . 'th';
}
switch ($number % 10) {
case 1:
return $number . 'st';
case 2:
return $number . 'nd';
case 3:
return $number . 'rd';
default:
return $number . 'th';
}
}
/**
* Converts a list of words into a sentence.
*
* Special treatment is done for the last few words. For example,
*
* ```php
* $words = ['Spain', 'France'];
* echo Inflector::sentence($words);
* // output: Spain and France
*
* $words = ['Spain', 'France', 'Italy'];
* echo Inflector::sentence($words);
* // output: Spain, France and Italy
*
* $words = ['Spain', 'France', 'Italy'];
* echo Inflector::sentence($words, ' & ');
* // output: Spain, France & Italy
* ```
*
* @param array $words the words to be converted into an string
* @param string $twoWordsConnector the string connecting words when there are only two
* @param string $lastWordConnector the string connecting the last two words. If this is null, it will
* take the value of `$twoWordsConnector`.
* @param string $connector the string connecting words other than those connected by
* $lastWordConnector and $twoWordsConnector
* @return string the generated sentence
* @since 2.0.1
*/
public static function sentence(array $words, $twoWordsConnector = ' and ', $lastWordConnector = null, $connector = ', ')
{
if ($lastWordConnector === null) {
$lastWordConnector = $twoWordsConnector;
}
switch (count($words)) {
case 0:
return '';
case 1:
return reset($words);
case 2:
return implode($twoWordsConnector, $words);
default:
return implode($connector, array_slice($words, 0, -1)) . $lastWordConnector . end($words);
}
}
}
есть несколько примеров.
echo "Inflector Test";
require('PhInflector.php');
echo "<hr>";
echo PhInflector::slug('Höäpeäöäich Médsui27:;;,.1! *"29p');
echo "<hr>";
echo PhInflector::slug('HIJO"$(/&T §!"(/&T"§:;;,.1! *"29p');
echo "<hr>";
echo PhInflector::slug('38917 jiodj d ! *"29p');
echo "<hr>";
echo PhInflector::slug('каи циефле ///!!!');
и переслать ссылку GitHub нажмите здесь.
Я уверен, что вы можете google, чтобы найти много библиотек, которые делают это.
но если вам нравится кодирование, вы можете попробовать обратный процесс: начните с сингулярных слов словаря (загрузите бесплатные, используемые aspell или что-то еще), используйте правило плюрализации; собирайте сопоставления и переключайте направление. Для "типа" вы во множественном "типы", и обратное сопоставление будет работать, как ожидалось. Хотя здесь тоже есть исключения, немного легче надежно плюрализовать вещи. Я сделал это время назад (в середине 90-х годов... :- )), для онлайн-игры (грязи), где описания для нескольких одинаковых элементов были concatenatd, и автоматическая плюрализация была необходима.
также: учитывая, что это конечное число таблиц, вы можете просто использовать простейший алгоритм, получить raw-выход, глазное яблоко и исправить ошибки вручную. :-)
Я думаю, вам нужно использовать список для перевода множественного числа в единственное число для некоторых специальных слов (в вашем примере Types->Type).
Я думаю, вы могли бы взглянуть на исходный код из CakePHP (вы можете начать поиск здесь). Они используют такой алгоритм для своих имен таблиц и имен полей для автоматического соединения таблиц.
[Edit:] здесь у вас есть научная работа, чтобы прочитать о "множественное число в Английский"
Я собираюсь попробовать этот MorphAdorner:http://morphadorner.northwestern.edu/morphadorner/download/ (Java). Это набор различных типов инструментов обработки НЛП, и вы можете протестировать их с помощью онлайн-примеров. Для вашей проблемы (это также моя проблема) есть инструмент Плюрализатора:http://morphadorner.northwestern.edu/morphadorner/pluralizer/example/
рассмотрим пакет python "inflect"
"правильно генерировать множественное число, существительные единственного числа, ординалы, неопределенные статьи; конвертировать числа в слова"
Я просто сталкиваюсь с этой проблемой и разработал решение за 10 минут.
Я думаю, что @paxdiablo предоставляет хорошую мысль о создании преобразовательного движка и добавлении правил. Я строю одно словарное правило и три общих правила. Правило словаря переходит в файл dict для поиска случаев исключений, в то время как три общих правила обрабатывают "ies", "es" и "s" соответственно.
однако может потребоваться слишком много времени, чтобы добавить все исключения в словарь, например, пироги/деревья/автобус и т. д. Одно из улучшений, которое я сделал, чтобы справиться с этими словами, - убедиться, что его можно преобразовать обратно.
например, если мы неправильно применяем правило удаления "es" к "деревьям" и преобразуем его в "tre", при попытке добавить множественное число обратно вы получите "tres", которое не равно исходному "дереву", и вы знаете, что правило " es " не должно применяться. Этот метод может решить исключения, упомянутые выше, без добавления их в файл словаря.
Я в конечном итоге с файлом словаря 42 действительно исключительные слова, и он может справиться с большинством случаев.
хороший реализация инфлектор в проекте uNnAddIns, который даже реализует экспериментальный испанский инфлектор. Идея поймана с рельсов модуль Инфлектора.
его можно использовать и для других вещей, таких как преобразование из CamelCase в обычный текст и другие лакомства и, например, создание дружественных URL-адресов браузера из заголовков.