搜索中台 ES 优化实践

徐胜 | 携程资深搜索工程师

2021年3月20日，在多想第一期线下分享中，作者分享了关于自己对旅游类搜索的实战和优化。 本文聚焦旅游类度假搜索引擎，主要检索符合从出发地到目的地的相关旅游产品。 其底层引擎都是基于开源的分布式检索平台Elasticsearch来搭建。整个演讲从如下三个角度来分享底层搜索引擎的优化过程及相关思路，希望可以给同行提供一些启发和思考：

写入层优化
查询层优化
业务实战分析

1.关于ES

Elasticsearch 是一个分布式的免费开源搜索和分析引擎，适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。 Elasticsearch 在 Apache Lucene 的基础上开发而成，由 Elasticsearch N.V.（即现在的 Elastic）于 2010 年首次发布。

Elasticsearch 以其简单的 REST 风格 API、分布式特性、速度和可扩展性而闻名，是 Elastic Stack 的核心组件。Elastic Stack 是一套适用于数据采集、扩充、存储、分析和可视化的免费开源工具。人们通常将 Elastic Stack 称为 ELK Stack（代指 Elasticsearch、Logstash 和 Kibana），目前 Elastic Stack 包括一系列丰富的轻量型数据采集代理，这些代理统称为 Beats，可用来向 Elasticsearch 发送数据。

目前ES是全球NO.7的数据库，是全球NO.1的搜索引擎，主要应用场景是垂直搜索引擎、数据可视化分析、日志分析等领域。

图1.数据库管理系统的排名

图2.搜索引擎的排名

2.关于搜索中台架构

旅游类的搜索中台，主要包括了团队游、自由行、游学、主题游、玩乐门票、邮轮等旅游线路的搜索。 如下图，整体上，可以分为三层：

前台

前台包含度假、玩乐、邮轮、向导等前端。

中台

中台服务主要是搜索预处理服务，主搜索引擎服务，产品卡片详情服务。

存储后台

数据存储后台，主要是基于ES和DB。

图3.搜索中台架构图

3.业务优化实战

旅游类搜索架构中，为什么要做优化？存在什么缺陷，以至于要做优化？下面我从几个点来讲一讲。

在旅游的场景开发过程中，我们经常会遇到一些bug，譬如大批量写入超时的情况，查询超时，写入的时候CPU和Load负载特别高，严重影响线下搜索的业务了；譬如，底层的ES集群出现单节点物理机磁盘损坏，分片不合理导致单分片容量过高等等情况。基于我们在线上业务上遇到的情况，我们总结了一套业务层面优化规划方案。

业务优化规划，主要是从集群侧优化和服务侧优化两个维度，总结为如下思维导图：

图4.ES业务优化方案

4.集群部署方式优化

集群的瓶颈通常跟底层物理机的资源，是否使用了高配置的物理机、高IOPS的读写、部署方式等等相关。

从部署方式上面，我们主要是采用的读写分离模式，即写入节点、查询节点、数据存储节点和Master四种角色独立分开。用户应用层的流量首先会经过LB层，到ES集群。在ES集群中，Coordinating node主要是承载查询的流量，Ingrest主要是承接写入节点的请求，data node是存储ES原始索引数据，Master是控制整个集群的主节点。如下图所示。