Анализатор ElasticSearch и токенизатор для электронной почты

Я не мог найти идеальное решение ни в Google, ни в ES для следующей ситуации, надеюсь, кто-то может помочь здесь.

предположим, что в поле "email"хранятся пять адресов электронной почты:

1. {"email": "john.doe@gmail.com"}
2. {"email": "john.doe@gmail.com, john.doe@outlook.com"}
3. {"email": "hello-john.doe@outlook.com"}
4. {"email": "john.doe@outlook.com}
5. {"email": "john@yahoo.com"}

Я хочу выполнить следующие сценарии поиска:

[Поиск -> Получение]

"john.doe@gmail.com" -> 1,2

"john.doe@outlook.com" -> 2,4

"john@yahoo.com" -> 5

"Джон.Министерство энергетики>- " 1,2,3,4

"Джон" -> 1,2,3,4,5

"gmail.com" -> 1,2

"outlook.com" -> 2,3,4

первые три соответствия являются обязательными, и для остальных из них чем точнее, тем лучше. Уже пробовали различные комбинации анализаторов индекса / поиска, токенизаторов и фильтров. Также пробовал работать над условием совпадения запросов, но не нашел идеального решения, любая мысль приветствуется, и никаких ограничений на сопоставления, анализаторы, или какой вид запрос, спасибо.

1 ответов


картография:

PUT /test
{
  "settings": {
    "analysis": {
      "filter": {
        "email": {
          "type": "pattern_capture",
          "preserve_original": 1,
          "patterns": [
            "([^@]+)",
            "(\p{L}+)",
            "(\d+)",
            "@(.+)",
            "([^-@]+)"
          ]
        }
      },
      "analyzer": {
        "email": {
          "tokenizer": "uax_url_email",
          "filter": [
            "email",
            "lowercase",
            "unique"
          ]
        }
      }
    }
  },
  "mappings": {
    "emails": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "email"
        }
      }
    }
  }
}

тестовых данных:

POST /test/emails/_bulk
{"index":{"_id":"1"}}
{"email": "john.doe@gmail.com"}
{"index":{"_id":"2"}}
{"email": "john.doe@gmail.com, john.doe@outlook.com"}
{"index":{"_id":"3"}}
{"email": "hello-john.doe@outlook.com"}
{"index":{"_id":"4"}}
{"email": "john.doe@outlook.com"}
{"index":{"_id":"5"}}
{"email": "john@yahoo.com"}

запрос для использования:

GET /test/emails/_search
{
  "query": {
    "term": {
      "email": "john.doe@gmail.com"
    }
  }
}