Elasticsearch分片与副本设置/拼写纠错原理/Linux下部署优化/安装依赖组件/服务器启动流程/Cluster与Node简述/数据库对比/映射

这次面试又是一场 Elasticsearch（ES）的硬仗，问题从分片设置到映射定义，涵盖了配置、功能、部署和架构对比。以下是我对每个问题的回答复盘，既整理思路，也找找不足。

面试官问："ES 的分片和副本是什么？数量怎么设定？"这个问题挺基础，我尽量答得清晰。

我说，分片（Shard）和副本（Replica）是 ES 分布式存储的核心：

设置数量时，我提到：

面试官问："分片太多有啥问题？"我说会增加管理开销，浪费资源。我觉得自己答得还行，但可以再提一下集群扩展时的分片迁移。

接着问："ES 的拼写纠错怎么实现？"这个问题有点冷门，我之前没深入研究。

我说，ES 的拼写纠错主要靠 Suggester 功能，比如 term suggester 和 phrase suggester：

原理：基于词典和编辑距离（Levenshtein Distance），对比用户输入和索引中的词，找出相似词。term suggester 针对单个词，phrase suggester 考虑词组上下文。
实现：查询时加 suggest 字段，设置 max_errors（允许的错误数）和 confidence（置信度），返回候选词。

面试官没追问，我感觉自己答得有点浅，之后得看看底层 FST（有限状态转换器）怎么支持纠错的。

第三个问题是："部署 ES 时，Linux 上有哪些优化？"这偏运维，我结合经验回答。

我说，Linux 部署 ES 可以从这几方面优化：

文件句柄 ：改 /etc/security/limits.conf，设 nofile 为 65535，避免 "Too many open files"。
虚拟内存 ：调 vm.max_map_count 到 262144（sysctl -w），支持 ES 的内存映射。
禁用 Swap ：设 bootstrap.memory_lock: true，避免内存交换影响性能。
CPU 和 IO ：用 SSD 提升 IO，绑定 CPU 核心（thread_pool 设置）提高并发。

面试官问："Swap 不关行不行？"我说可以，但性能会下降。这部分我觉得答得还算实用。

问到："安装 ES 有哪些依赖组件？"这个问题简单，我直接列举。

我说，ES 的核心依赖是：

可选组件有 Kibana（可视化）、Logstash（数据导入）。面试官没深问，感觉这部分没问题。

接着是："怎么启动 ES 服务器？"这个问题很操作性。

我说，启动 ES 很简单：

面试官问："后台启动呢？"我说加 -d 参数。这部分答得流畅，挺自信。

问："简单说说 ES Cluster？"我尽量简洁。

我说，ES Cluster 是多个节点的集合，共享一个集群名（cluster.name）。由 Master 节点管理状态，数据节点存数据，协调节点处理请求。集群通过分片和副本实现高可用和分布式计算。

面试官没追问，感觉这部分没啥问题。

接着是："ES Node 是什么？"我也简洁回答。

我说，Node 是 ES 集群中的单个实例，跑在一个 JVM 上。角色有：

一个节点可以多角色，默认全能。面试官满意，我觉得答得够简洁。

问到："ES 和关系数据库对比呢？"这个问题让我有点兴奋。

我说，二者区别明显：

面试官问："事务支持呢？"我说 ES 不支持 ACID，关系数据库强在这点。我觉得自己答得全面。

最后一个问题是："ES 能定义映射吗？"这个问题不难。

我说，可以，ES 用 Mapping 定义字段类型和索引方式：

动态映射 ：默认自动推断类型（比如字符串变 text）。
显式映射 ：创建索引时用 PUT /index/_mapping 指定，比如 { "properties": { "name": { "type": "keyword" } } }。
限制：已有字段类型不能改，只能加新字段。

面试官没追问，我觉得这部分答得挺好。