elasticserach 全文搜索 "value": "j" 查找不到数据

Pam 2002 阅读 0 评论 613 点赞

在 Elasticsearch 中，如果 "value": "j" 无法找到数据，而 "value": "john" 可以找到数据，可能是由于以下原因导致的：

分词器行为导致的问题：
- Elasticsearch 默认使用 standard 分词器，该分词器会将短字符串（如 j）忽略。
- 对较长的字符串（如 john），分词器会正确处理并索引。
查询类型不匹配：
- 默认的 match 查询会分析查询字符串并尝试匹配索引中的分词结果，可能无法匹配单字符。
- 更短的查询字符串可能需要使用 prefix、wildcard 或 fuzzy 查询。
字段映射的分词器设置：
- 字段可能配置为 text 类型，并使用分词器，而短字符串的分词结果可能被丢弃。
- 如果字段是 keyword 类型，则只支持精确匹配。

解决方案

1. 检查字段映射

检查 my_index 的字段映射，确认字段的类型和分词器：

bash
curl -X GET "http://localhost:9200/my_index/_mapping?pretty"

如果字段是 text 类型，可能使用了默认分词器。
如果字段是 keyword 类型，搜索行为是基于精确匹配。

2. 使用 `prefix` 查询

如果需要匹配以 j 开头的值，可以使用 prefix 查询：

bash
curl -X GET "http://localhost:9200/my_index/_search" -H "Content-Type: application/json" -d '{
  "query": {
    "prefix": {
      "field_name": "j"
    }
  }
}'

3. 使用 `wildcard` 查询

对于更灵活的前缀匹配，可以使用 wildcard 查询：

bash
curl -X GET "http://localhost:9200/my_index/_search" -H "Content-Type: application/json" -d '{
  "query": {
    "wildcard": {
      "field_name": {
        "value": "j*"
      }
    }
  }
}'

注意：

wildcard 查询对性能影响较大，尤其在大索引中。

4. 使用 `fuzzy` 查询

如果需要模糊匹配，可以使用 fuzzy 查询：

bash
curl -X GET "http://localhost:9200/my_index/_search" -H "Content-Type: application/json" -d '{
  "query": {
    "fuzzy": {
      "field_name": {
        "value": "j",
        "fuzziness": "AUTO"
      }
    }
  }
}'

5. 自定义分词器

如果需要支持单字符查询，可以为字段配置自定义分词器。例如，使用 edge_ngram 分词器创建索引：

创建索引并配置分词器

bash
curl -X PUT "http://localhost:9200/my_index" -H "Content-Type: application/json" -d '{
  "settings": {
    "analysis": {
      "analyzer": {
        "edge_ngram_analyzer": {
          "tokenizer": "edge_ngram_tokenizer"
        }
      },
      "tokenizer": {
        "edge_ngram_tokenizer": {
          "type": "edge_ngram",
          "min_gram": 1,
          "max_gram": 10,
          "token_chars": ["letter"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "field_name": {
        "type": "text",
        "analyzer": "edge_ngram_analyzer",
        "search_analyzer": "standard"
      }
    }
  }
}'

索引数据

bash
curl -X POST "http://localhost:9200/my_index/_doc" -H "Content-Type: application/json" -d '{
  "field_name": "john"
}'

查询数据

此时，match 查询可以匹配单字符：

bash
curl -X GET "http://localhost:9200/my_index/_search" -H "Content-Type: application/json" -d '{
  "query": {
    "match": {
      "field_name": "j"
    }
  }
}'

6. 使用 `completion` 建议器（Autocomplete）

对于输入提示功能，可以使用 completion 字段，支持高效的前缀查询：

创建索引

bash
curl -X PUT "http://localhost:9200/my_index" -H "Content-Type: application/json" -d '{
  "mappings": {
    "properties": {
      "field_name": {
        "type": "completion"
      }
    }
  }
}'

索引数据

bash
curl -X POST "http://localhost:9200/my_index/_doc" -H "Content-Type: application/json" -d '{
  "field_name": "john"
}'

查询数据

bash
curl -X GET "http://localhost:9200/my_index/_search" -H "Content-Type: application/json" -d '{
  "suggest": {
    "field_suggest": {
      "prefix": "j",
      "completion": {
        "field": "field_name"
      }
    }
  }
}'

总结

原因分析

Elasticsearch 默认分词器会忽略过短的查询字符串。
查询类型和字段类型不匹配也会导致结果不符合预期。

elasticserach 全文搜索 "value": "j" 查找不到数据

解决方案

1. 检查字段映射

2. 使用 prefix 查询

3. 使用 wildcard 查询

4. 使用 fuzzy 查询

5. 自定义分词器

创建索引并配置分词器

索引数据

查询数据

6. 使用 completion 建议器（Autocomplete）

创建索引

索引数据

查询数据

总结

原因分析

推荐方案

elk docker 容器的搭建

es 字段类型

es 索引字段添加多个分词器

对 es 索引字段进行修改升级

2. 使用 `prefix` 查询

3. 使用 `wildcard` 查询

4. 使用 `fuzzy` 查询

6. 使用 `completion` 建议器（Autocomplete）