别只会搜日志了,求你懂点原理吧

本篇主要内容如下:

前言

项目中我们总是用Kibana 界面来搜索测试或生产环境下的日志,来看下有没有异常信息。Kibana 就是 我们常说的 ELK 中的 K。

Kibana 界面如下图所示:

 Kibana 界面

但这些日志检索原理是什么呢?这里就该我们的 Elasticsearch 搜索引擎登场了。

一、Elasticsearch 简介

1.1 什么是 Elasticsearch?

Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。简单来说只要涉及搜索和分析相关的, ES 都可以做。

1.2 Elasticsearch 的用途?

Elasticsearch 在速度和可扩展性方面都表现出色,而且还能够索引多种类型的内容,这意味着其可用于多种用例:

比如一个在线网上商店,您可以在其中允许客户搜索您出售的产品。在这种情况下,您可以使用Elasticsearch 存储整个产品目录和库存,并为它们提供搜索和自动完成建议。

 搜索手机

比如收集日志或交易数据,并且要分析和挖掘此数据以查找趋势,统计信息,摘要或异常。在这种情况下,您可以使用 Logstash(Elasticsearch / Logstash / Kibana堆栈的一部分)来收集,聚合和解析数据,然后让 Logstash 将这些数据提供给 Elasticsearch。数据放入 Elasticsearch 后,您可以运行搜索和聚合以挖掘您感兴趣的任何信息。

1.3 Elasticsearch 的工作原理?

 ELK 原理图

Elasticsearch 是在 Lucene 基础上构建而成的。ES 在 Lucence 上做了很多增强。

Lucene 是apache软件基金会 4 的 jakarta 项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。(来自百度百科)

Elasticsearch 的原始数据从哪里来?

原始数据从多个来源 ( 包括日志、系统指标和网络应用程序 ) 输入到 Elasticsearch 中。

Elasticsearch 的数据是怎么采集的?

数据采集指在 Elasticsearch 中进行索引之前解析、标准化并充实这些原始数据的过程。这些数据在 Elasticsearch 中索引完成之后,用户便可针对他们的数据运行复杂的查询,并使用聚合来检索自身数据的复杂汇总。这里用到了 Logstash,后面会介绍。

怎么可视化查看想要检索的数据?

这里就要用到 Kibana 了,用户可以基于自己的数据进行搜索、查看数据视图等。

1.4 Elasticsearch 索引是什么?

Elasticsearch 索引指相互关联的文档集合。Elasticsearch 会以 JSON 文档的形式存储数据。每个文档都会在一组键 ( 字段或属性的名称 ) 和它们对应的值 ( 字符串、数字、布尔值、日期、数值组、地理位置或其他类型的数据 ) 之间建立联系。

Elasticsearch 使用的是一种名为倒排索引的数据结构,这一结构的设计可以允许十分快速地进行全文本搜索。倒排索引会列出在所有文档中出现的每个特有词汇,并且可以找到包含每个词汇的全部文档。

在索引过程中,Elasticsearch 会存储文档并构建倒排索引,这样用户便可以近实时地对文档数据进行搜索。索引过程是在索引 API 中启动的,通过此 API 您既可向特定索引中添加 JSON 文档,也可更改特定索引中的 JSON 文档。

1.5 Logstash 的用途是什么?

Logstash 就是 ELK 中的 L。

Logstash 是 Elastic Stack 的核心产品之一,可用来对数据进行聚合和处理,并将数据发送到 Elasticsearch。Logstash 是一个开源的服务器端数据处理管道,允许您在将数据索引到 Elasticsearch 之前同时从多个来源采集数据,并对数据进行充实和转换。

1.6 Kibana 的用途是什么?

Kibana 是一款适用于 Elasticsearch 的数据可视化和管理工具,可以提供实时的直方图、线性图等。

1.7 为什么使用 Elasticsearch

ES 很快,近实时的搜索平台。

ES 具有分布式的本质特质。

ES 包含一系列广泛的功能,比如数据汇总和索引生命周期管理。

官方文档:https://www.elastic.co/cn/what-is/elasticsearch

二、ES 基本概念

2.1 Index ( 索引 )

动词:相当于 Mysql 中的 insert

名词:相当于 Mysql 中的 database

与 mysql 的对比

序号 Mysql Elasticsearch
1 Mysql 服务 ES 集群服务
2 数据库 Database 索引 Index
3 表 Table 类型 Type
4 记录 Records ( 一行行记录 ) 文档 Document ( JSON 格式 )

2.2 倒排索引

假如数据库有如下电影记录:

1-大话西游

2-大话西游外传

3-解析大话西游

4-西游降魔外传

5-梦幻西游独家解析

分词:将整句分拆为单词

序号 保存到 ES 的词 对应的电影记录序号
A 西游 1,2, 3,4, 5
B 大话 1,2, 3
C 外传 2,4, 5
D 解析 3,5
E 降魔 4
F 梦幻 5
G 独家 5

检索:独家大话西游

将 独家大话西游 解析拆分成 独家、大话、西游

ES 中 A、B、G 记录 都有这三个词的其中一种, 所以 1,2, 3,4, 5 号记录都有相关的词被命中。

1 号记录命中 2 次, A、B 中都有 ( 命中 2 次 ) ,而且 1 号记录有 2 个词,相关性得分:2 次/2 个词=1

2 号记录命中 2 个词 A、B 中的都有 ( 命中 2 次 ) ,而且 2 号记录有 2 个词,相关性得分:2 次/3 个词= 0.67

3 号记录命中 2 个词 A、B 中的都有 ( 命中 2 次 ) ,而且 3 号记录有 2 个词,相关性得分:2 次/3 个词= 0.67

4 号记录命中 2 个词 A 中有 ( 命中 1 次 ) ,而且 4 号记录有 2 个词,相关性得分:1 次/3 个词= 0.33

5 号记录命中 2 个词 A 中有 ( 命中 2 次 ) ,而且 4 号记录有 4 个词,相关性得分:2 次/4 个词= 0.5

所以检索出来的记录顺序如下:

​ 1-大话西游 ( 相关性得分:1 )

​ 2-大话西游外传 ( 想关性得分:0.67 )

​ 3-解析大话西游 ( 想关性得分:0.67 )

​ 5-梦幻西游独家解析 ( 想关性得分:0.5 )

​ 4-西游降魔 ( 想关性得分:0.33 )

三、Docker 搭建环境

3.1. 搭建 Elasticsearch 环境

1 ) 下载镜像文件

 
 
 
 
  1. docker pull elasticsearch:7.4.2

2 ) 创建实例

映射配置文件

 
 
 
 
  1. 配置映射文件夹
  2. mkdir -p /mydata/elasticsearch/config
  3. 配置映射文件夹
  4. mkdir -p /mydata/elasticsearch/data
  5. 设置文件夹权限任何用户可读可写
  6. chmod 777 /mydata/elasticsearch -R
  7. 配置 http.host
  8. echo "http.host: 0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml

启动 elasticsearch 容器

 
 
 
 
  1. docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
  2. -e "discovery.type"="single-node" \
  3. -e ES_JAVA_OPTS="-Xms64m -Xmx128m" \
  4. -v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
  5. -v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
  6. -v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
  7. -d elasticsearch:7.4.2

访问 elasticsearch 服务

访问:http://192.168.56.10:9200

返回的 reponse

 
 
 
 
  1. {
  2.   "name" : "8448ec5f3312",
  3.   "cluster_name" : "elasticsearch",
  4.   "cluster_uuid" : "xC72O3nKSjWavYZ-EPt9Gw",
  5.   "version" : {
  6.     "number" : "7.4.2",
  7.     "build_flavor" : "default",
  8.     "build_type" : "docker",
  9.     "build_hash" : "2f90bbf7b93631e52bafb59b3b049cb44ec25e96",
  10.     "build_date" : "2019-10-28T20:40:44.881551Z",
  11.     "build_snapshot" : false,
  12.     "lucene_version" : "8.2.0",
  13.     "minimum_wire_compatibility_version" : "6.8.0",
  14.     "minimum_index_compatibility_version" : "6.0.0-beta1"
  15.   },
  16.   "tagline" : "You Know, for Search"
  17. }

访问:http://192.168.56.10:9200/_cat 访问节点信息

 
 
 
 
  1. 127.0.0.1 62 90 0 0.06 0.10 0.05 dilm * 8448ec5f3312

3.2. 搭建 Kibana 环境

 
 
 
 
  1. docker pull kibana:7.4.2
  2. docker run --name kibana -e ELASTICSEARCH_HOSTS=http://192.168.56.10:9200 -p 5601:5601 -d kibana:7.4.2

访问 kibana: http://192.168.56.10:5601/

四、初阶检索玩法

4.1._cat 用法

 
 
 
 
  1. GET /_cat/nodes: 查看所有节点
  2. GET /_cat/health: 查看 es 健康状况
  3. GET /_cat/master: 查看主节点
  4. GET /_cat/indices: 查看所有索引
  5. 查询汇总:
  6. /_cat/allocation
  7. /_cat/shards
  8. /_cat/shards/{index}
  9. /_cat/master
  10. /_cat/nodes
  11. /_cat/tasks
  12. /_cat/indices
  13. /_cat/indices/{index}
  14. /_cat/segments
  15. /_cat/segments/{index}
  16. /_cat/count
  17. /_cat/count/{index}
  18. /_cat/recovery
  19. /_cat/recovery/{index}
  20. /_cat/health
  21. /_cat/pending_tasks
  22. /_cat/aliases
  23. /_cat/aliases/{alias}
  24. /_cat/thread_pool
  25. /_cat/thread_pool/{thread_pools}
  26. /_cat/plugins
  27. /_cat/fielddata
  28. /_cat/fielddata/{fields}
  29. /_cat/nodeattrs
  30. /_cat/repositories
  31. /_cat/snapshots/{repository}
  32. /_cat/templates

4.2. 索引一个文档 ( 保存 )

例子:在 customer 索引下的 external 类型下保存标识为 1 的数据。

使用 Kibana 的 Dev Tools 来创建

 
 
 
 
  1. PUT member/external/1
  2. {
  3. "name":"jay huang"
  4. }

Reponse:

 
 
 
 
  1. {
  2.     "_index": "member", //在哪个索引
  3.     "_type": "external",//在那个类型
  4.     "_id": "2",//记录 id
  5.     "_version": 7,//版本号
  6.     "result": "updated",//操作类型
  7.     "_shards": {
  8.         "total": 2,
  9.         "successful": 1,
  10.         "failed": 0
  11.     },
  12.     "_seq_no": 9,
  13.     "_primary_term": 1
  14. }

也可以通过 Postman 工具发送请求来创建记录。

 创建一条记录

注意:

PUT 和 POST 都可以创建记录。

POST:如果不指定 id,自动生成 id。如果指定 id,则修改这条记录,并新增版本号。

PUT:必须指定 id,如果没有这条记录,则新增,如果有,则更新。

4.3 查询文档

 
 
 
 
  1. 请求:http://192.168.56.10:9200/member/external/2
  2. Reposne:
  3. {
  4.     "_index": "member",   //在哪个索引
  5.     "_type": "external",  //在那个类型
  6.     "_id": "2",           //记录 id
  7.     "_version": 7,        //版本号
  8.     "_seq_no": 9,         //并发控制字段,每次更新就会+1,用来做乐观锁
  9.     "_primary_term": 1,   //同上,主分片重新分配,如重启,就会变化
  10.     "found": true,
  11.     "_source": { //真正的内容
  12.         "name": "jay huang"
  13.  }
  14. }

_seq_no 用作乐观锁

每次更新完数据后,_seq_no 就会+1,所以可以用作并发控制。

当更新记录时,如果_seq_no 与预设的值不一致,则表示记录已经被至少更新了一次,不允许本次更新。

用法如下:

 
 
 
 
  1. 请求更新记录 2: http://192.168.56.10:9200/member/external/2?if_seq_no=9&&if_primary_term=1
  2. 返回结果:
  3. {
  4.     "_index": "member",
  5.     "_type": "external",
  6.     "_id": "2",
  7.     "_version": 9,
  8.     "result": "updated",
  9.     "_shards": {
  10.         "total": 2,
  11.         "successful": 1,
  12.         "failed": 0
  13.     },
  14.     "_seq_no": 11,
  15.     "_primary_term": 1
  16. }

_seq_no 等于 10,且_primary_term=1 时更新数据,执行一次请求后,再执行上面的请求则会报错:版本冲突

 
 
 
 
  1. {
  2.     "error": {
  3.         "root_cause": [
  4.  {
  5.                 "type": "version_conflict_engine_exception",
  6.                 "reason": "[2]: version conflict, required seqNo [10], primary term [1]. current document has seqNo [11] and primary term [1]",
  7.                 "index_uuid": "CX6uwPBKRByWpuym9rMuxQ",
  8.                 "shard": "0",
  9.                 "index": "member"
  10.  }
  11.         ],
  12.         "type": "version_conflict_engine_exception",
  13.         "reason": "[2]: version conflict, required seqNo [10], primary term [1]. current document has seqNo [11] and primary term [1]",
  14.         "index_uuid": "CX6uwPBKRByWpuym9rMuxQ",
  15.         "shard": "0",
  16.         "index": "member"
  17.     },
  18.     "status": 409
  19. }

4.4 更新文档

用法

POST 带 _update 的更新操作,如果原数据没有变化,则 repsonse 中的 result 返回 noop ( 没有任何操作 ) ,version 也不会变化。

请求体中需要用 doc 将请求数据包装起来。

 
 
 
 
  1. POST 请求:http://192.168.56.10:9200/member/external/2/_update
  2. {
  3.     "doc":{
  4.         "name":"jay huang"
  5.  }
  6. }
  7. 响应:
  8. {
  9.     "_index": "member",
  10.     "_type": "external",
  11.     "_id": "2",
  12.     "_version": 12,
  13.     "result": "noop",
  14.     "_shards": {
  15.         "total": 0,
  16.         "successful": 0,
  17.         "failed": 0
  18.     },
  19.     "_seq_no": 14,
  20.     "_primary_term": 1
  21. }

使用场景:对于大并发更新,建议不带 _update。对于大并发查询,少量更新的场景,可以带_update,进行对比更新。

更新时增加属性

请求体重增加 age 属性

 
 
 
 
  1. http://192.168.56.10:9200/member/external/2/_update
  2. request:
  3. {
  4.     "doc":{
  5.         "name":"jay huang",
  6.         "age": 18
  7.  }
  8. }
  9. response:
  10. {
  11.     "_index": "member",
  12.     "_type": "external",
  13.     "_id": "2",
  14.     "_version": 13,
  15.     "result": "updated",
  16.     "_shards": {
  17.         "total": 2,
  18.         "successful": 1,
  19.         "failed": 0
  20.     },
  21.     "_seq_no": 15,
  22.     "_primary_term": 1
  23. }

4.5 删除文档和索引

删除文档

 
 
 
 
  1. DELETE 请求:http://192.168.56.10:9200/member/external/2
  2. response:
  3. {
  4.     "_index": "member",
  5.     "_type": "external",
  6.     "_id": "2",
  7.     "_version": 2,
  8.     "result": "deleted",
  9.     "_shards": {
  10.         "total": 2,
  11.         "successful": 1,
  12.         "failed": 0
  13.     },
  14.     "_seq_no": 1,
  15.     "_primary_term": 1
  16. }

删除索引

 
 
 
 
  1. DELETE 请求:http://192.168.56.10:9200/member
  2. repsonse:
  3. {
  4.     "acknowledged": true
  5. }

没有删除类型的功能

4.6 批量导入数据

使用 kinaba 的 dev tools 工具,输入以下语句

 
 
 
 
  1. POST /member/external/_bulk
  2. {"index":{"_id":"1"}}
  3. {"name":"Jay Huang"}
  4. {"index":{"_id":"2"}}
  5. {"name":"Jackson Huang"}

执行结果如下图所示:

拷贝官方样本数据

 
 
 
 
  1. https://raw.githubusercontent.com/elastic/elasticsearch/master/docs/src/test/resources/accounts.json

在 kibana 中执行脚本

 
 
 
 
  1. POST /bank/account/_bulk
  2. {"index":{"_id":"1"}}
  3. {"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}
  4. {"index":{"_id":"6"}}
  5. ......

 批量插入样本数据的执行结果

查看所有索引

 查看所有索引

可以从返回结果中看到 bank 索引有 1000 条数据,占用了 440.2kb 存储空间。

五、高阶检索玩法

5.1 两种查询方式

5.1.1 URL 后接参数

GET bank/_search?q=*&sort=account_number: asc

```/_search?q=*&sort=account_number: asc`

查询出所有数据,共 1000 条数据,耗时 1ms,只展示 10 条数据 ( ES 分页 )

 URL 后接参数

属性值说明:

 
 
 
 
  1. took – ES 执行搜索的时间 ( 毫秒 )
  2. timed_out – ES 是否超时
  3. _shards – 有多少个分片被搜索了,以及统计了成功/失败/跳过的搜索的分片
  4. max_score – 最高得分
  5. hits.total.value - 命中多少条记录
  6. hits.sort - 结果的排序 key 键,没有则按 score 排序
  7. hits._score - 相关性得分
  8. 参考文档:
  9. https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started-search.html

5.1.2 URL 加请求体进行检索 ( QueryDSL )

请求体中写查询条件

语法:

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query":{"match_all": {}},
  4.   "sort": [
  5.     {"account_number": "asc" }
  6.  ]
  7. }

示例:查询出所有,先按照 accout_number 升序排序,再按照 balance 降序排序

 URL 加请求体进行检索

5.2 详解 QueryDSL 查询

DSL: Domain Specific Language

5.2.1 全部匹配 match_all

示例:查询所有记录,按照 balance 降序排序,只返回第 11 条记录到第 20 条记录,只显示 balance 和 firstname 字段。

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match_all": {}
  5.   },
  6.   "sort": [
  7.  {
  8.       "balance": {
  9.         "order": "desc"
  10.  }
  11.  }
  12.   ],
  13.   "from": 10,
  14.   "size": 10,
  15.   "_source": ["balance", "firstname"]
  16. }

5.2.2 匹配查询 match

基本类型 ( 非字符串 ) ,精确匹配

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match": {"account_number": "30"}
  5.  }
  6. }

字符串,全文检索

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match": {
  5.       "address": "mill road"
  6.  }
  7.  }
  8. }

 字符串全文检索

全文检索按照评分进行排序,会对检索条件进行分词匹配。

查询 address 中包含 mill 或者 road 或者 mill road 的所有记录,并给出相关性得分。

查到了 32 条记录,最高的一条记录是 Address = "990 Mill Road",得分:8.926605. Address="198 Mill Lane" 评分 5.4032025,只匹配到了 Mill 单词。

5.2.3 短语匹配 match_phase

将需要匹配的值当成一个整体单词 ( 不分词 ) 进行检索

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match_phrase": {
  5.       "address": "mill road"
  6.  }
  7.  }
  8. }

查出 address 中包含 mill road 的所有记录,并给出相关性得分

5.2.4 多字段匹配 multi_match

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "multi_match": {
  5.       "query": "mill land",
  6.       "fields": [
  7.         "state",
  8.         "address"
  9.  ]
  10.  }
  11.  }
  12. }

multi_match 中的 query 也会进行分词。

查询 state 包含 mill 或 land 或者 address 包含 mill 或 land 的记录。

5.2.5 复合查询 bool

复合语句可以合并任何其他查询语句,包括复合语句。复合语句之间可以相互嵌套,可以表达复杂的逻辑。

搭配使用 must,must_not,should

must: 必须达到 must 指定的条件。 ( 影响相关性得分 )

must_not: 必须不满足 must_not 的条件。 ( 不影响相关性得分 )

should: 如果满足 should 条件,则可以提高得分。如果不满足,也可以查询出记录。 ( 影响相关性得分 )

示例:查询出地址包含 mill,且性别为 M,年龄不等于 28 的记录,且优先展示 firstname 包含 Winnie 的记录。

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "bool": {
  5.       "must": [
  6.        {
  7.           "match": {
  8.             "address": "mill"
  9.           }
  10.        },
  11.        {
  12.           "match": {
  13.             "gender": "M"
  14.           }
  15.       }
  16.      ],
  17.       "must_not": [
  18.       {
  19.           "match": {
  20.             "age": "28"
  21.       }
  22.      }],
  23.       "should": [
  24.       {
  25.           "match": {
  26.             "firstname": "Winnie"
  27.           }
  28.       }]
  29.    }
  30.  }
  31. }

5.2.6 filter 过滤

不影响相关性得分,查询出满足 filter 条件的记录。

在 bool 中使用。

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "bool": {
  5.       "filter": [
  6.        {
  7.           "range": {
  8.             "age": {
  9.               "gte":18,
  10.               "lte":40
  11.             }
  12.          }
  13.       }]
  14.    }
  15.  }
  16. }

5.2.7 term 查询

匹配某个属性的值。

全文检索字段用 match,其他非 text 字段匹配用 term

keyword:文本精确匹配 ( 全部匹配 )

match_phase:文本短语匹配

 
 
 
 
  1. 非 text 字段精确匹配
  2. GET bank/_search
  3. {
  4.   "query": {
  5.     "term": {
  6.       "age": "20"
  7.     }
  8.   }
  9. }

5.2.8 aggregations 聚合

聚合:从数据中分组和提取数据。类似于 SQL GROUP BY 和 SQL 聚合函数。

Elasticsearch 可以将命中结果和多个聚合结果同时返回。

聚合语法:

 
 
 
 
  1. "aggregations" : {
  2.     "<聚合名称 1>" : {
  3.         "<聚合类型>" : {
  4.             <聚合体内容>
  5.         }
  6.         [,"元数据" : {  [] }]?
  7.         [,"aggregations" : { []+ }]?
  8.     }
  9.     ["聚合名称 2>" : { ... }]*
  10. }

示例 1:搜索 address 中包含 big 的所有人的年龄分布 ( 前 10 条 ) 以及平均年龄,以及平均薪资

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match": {
  5.       "address": "mill"
  6.  }
  7.   },
  8.   "aggs": {
  9.     "ageAggr": {
  10.       "terms": {
  11.         "field": "age",
  12.         "size": 10
  13.  }
  14.     },
  15.     "ageAvg": {
  16.       "avg": {
  17.         "field": "age"
  18.  }
  19.     },
  20.     "balanceAvg": {
  21.       "avg": {
  22.         "field": "balance"
  23.    }
  24.   }
  25.  }
  26. }

检索结果如下所示:

hits 记录返回了,三种聚合结果也返回了,平均年龄 34 岁,平均薪资 25208.0,品骏年龄分布:38 岁的有 2 个,28 岁的有一个,32 岁的有一个

 示例 1

如果不想返回 hits 结果,可以在最后面设置 size:0

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match": {
  5.       "address": "mill"
  6.  }
  7.   },
  8.   "aggs": {
  9.     "ageAggr": {
  10.       "terms": {
  11.         "field": "age",
  12.         "size": 10
  13.     }
  14.    }
  15.   },
  16.   "size": 0
  17. }

示例 2:按照年龄聚合,并且查询这些年龄段的平均薪资

从结果可以看到 31 岁的有 61 个,平均薪资 28312.9,其他年龄的聚合结果类似。

 示例 2

示例 3:按照年龄分组,然后将分组后的结果按照性别分组,然后查询出这些分组后的平均薪资

 
 
 
 
  1. GET bank/_search
  2. {
  3.   "query": {
  4.     "match_all": {
  5.  }
  6.   },
  7.   "aggs": {
  8.     "ageAggr": {
  9.       "terms": {
  10.         "field": "age",
  11.         "size": 10
  12.       },
  13.       "aggs": {
  14.         "genderAggr": {
  15.           "terms": {
  16.             "field": "gender.keyword",
  17.             "size": 10
  18.           },
  19.           "aggs": {
  20.             "balanceAvg": {
  21.               "avg": {
  22.                 "field": "balance"
  23.             }
  24.          }
  25.        }
  26.       }
  27.      }
  28.    }
  29.   },
  30.   "size": 0
  31. }

从结果可以看到 31 岁的有 61 个。其中性别为 M 的 35 个,平均薪资 29565.6,性别为 F 的 26 个,平均薪资 26626.6。其他年龄的聚合结果类似。

 聚合结果

5.2.9 Mapping 映射

Mapping 是用来定义一个文档 ( document ) ,以及它所包含的属性 ( field ) 是如何存储和索引的。

  • 定义哪些字符串属性应该被看做全文本属性 ( full text fields )
  • 定义哪些属性包含数字,日期或地理位置
  • 定义文档中的所有属性是否都能被索引 ( _all 配置 )
  • 日期的格式
  • 自定义映射规则来执行动态添加属性

Elasticsearch7 去掉 tpye 概念:

关系型数据库中两个数据库表示是独立的,即使他们里面有相同名称的列也不影响使用,但 ES 中不是这样的。elasticsearch 是基于 Lucence 开发的搜索引擎,而 ES 中不同 type 与名称相同的 field 最终在 Lucence 中的处理方式是一样的。

为了区分不同 type 下的同一名称的字段,Lucence 需要处理冲突,导致检索效率下降

ES7.x 版本:URL 中的 type 参数为可选。

ES8.x 版本:不支持 URL 中的 type 参数

所有类型可以参考文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html

查询索引的映射

如查询 my-index 索引的映射

 
 
 
 
  1. GET /my-index/_mapping
  2. 返回结果:
  3. {
  4.   "my-index" : {
  5.     "mappings" : {
  6.       "properties" : {
  7.         "age" : {
  8.           "type" : "integer"
  9.         },
  10.         "email" : {
  11.           "type" :  本文名称:别只会搜日志了,求你懂点原理吧
    新闻来源:http://www.shufengxianlan.com/qtweb/news33/462383.html

    网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

    广告

    声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联