Анализатор ElasticSearch и токенизатор для электронной почты
Я не мог найти идеальное решение ни в Google, ни в ES для следующей ситуации, надеюсь, кто-то может помочь здесь.
предположим, что в поле "email"хранятся пять адресов электронной почты:
1. {"email": "john.doe@gmail.com"}
2. {"email": "john.doe@gmail.com, john.doe@outlook.com"}
3. {"email": "hello-john.doe@outlook.com"}
4. {"email": "john.doe@outlook.com}
5. {"email": "john@yahoo.com"}
Я хочу выполнить следующие сценарии поиска:
[Поиск -> Получение]
"john.doe@gmail.com" -> 1,2
"john.doe@outlook.com" -> 2,4
"john@yahoo.com" -> 5
"Джон.Министерство энергетики>- " 1,2,3,4
"Джон" -> 1,2,3,4,5
"gmail.com" -> 1,2
"outlook.com" -> 2,3,4
первые три соответствия являются обязательными, и для остальных из них чем точнее, тем лучше. Уже пробовали различные комбинации анализаторов индекса / поиска, токенизаторов и фильтров. Также пробовал работать над условием совпадения запросов, но не нашел идеального решения, любая мысль приветствуется, и никаких ограничений на сопоставления, анализаторы, или какой вид запрос, спасибо.
1 ответов
картография:
PUT /test
{
"settings": {
"analysis": {
"filter": {
"email": {
"type": "pattern_capture",
"preserve_original": 1,
"patterns": [
"([^@]+)",
"(\p{L}+)",
"(\d+)",
"@(.+)",
"([^-@]+)"
]
}
},
"analyzer": {
"email": {
"tokenizer": "uax_url_email",
"filter": [
"email",
"lowercase",
"unique"
]
}
}
}
},
"mappings": {
"emails": {
"properties": {
"email": {
"type": "string",
"analyzer": "email"
}
}
}
}
}
тестовых данных:
POST /test/emails/_bulk
{"index":{"_id":"1"}}
{"email": "john.doe@gmail.com"}
{"index":{"_id":"2"}}
{"email": "john.doe@gmail.com, john.doe@outlook.com"}
{"index":{"_id":"3"}}
{"email": "hello-john.doe@outlook.com"}
{"index":{"_id":"4"}}
{"email": "john.doe@outlook.com"}
{"index":{"_id":"5"}}
{"email": "john@yahoo.com"}
запрос для использования:
GET /test/emails/_search
{
"query": {
"term": {
"email": "john.doe@gmail.com"
}
}
}