为什么大厂都在用Elasticsearch?我部署一次后终于明白了
前言
很多程序员第一次接触 Elasticsearch,其实都不是主动学习,而是被项目逼出来的。刚开始系统数据量不大,MySQL 几乎无所不能,模糊查询、排序、统计分析都能完成。但随着业务增长,商品越来越多、日志越来越大、搜索条件越来越复杂,原本几百毫秒完成的查询开始变成几秒甚至十几秒。用户觉得系统变慢了,开发却不知道问题究竟出在哪里。
我也经历过这样的阶段。以前总觉得数据库既然能存数据,那自然也能搜索数据。直到有一次项目的数据量突破百万级之后,后台搜索功能开始频繁超时。为了优化性能,各种索引加了一遍又一遍,SQL改了一版又一版,但效果始终有限。那时候我才意识到,也许问题并不在数据库优化,而是在工具本身的定位上。
后来在研究搜索方案的时候,我接触到了 Elasticsearch。最开始我以为它只是一个高级版搜索引擎,用过之后才发现,它更像是专门为搜索场景打造的数据平台。全文检索、模糊匹配、聚合分析以及近实时查询能力,让很多原本需要复杂 SQL 才能实现的功能变得简单直接。很多互联网公司把它作为搜索和日志分析核心,也并不是没有原因。
对于刚接触 Elasticsearch 的朋友来说,最好的学习方式并不是先研究复杂架构,而是亲手部署一次。从下载安装到创建索引、写入数据、执行搜索请求,把整个流程跑通之后,再去理解分片、副本和集群架构会轻松很多。这篇文章就以 CentOS 7 为例,从零开始完成 Elasticsearch 的部署与远程访问配置。
1.什么是Elasticsearch?
Elasticsearch能让你在海量数据中“秒级”查到想要的内容,并支持复杂的聚合分析。
核心特性
1.全文搜索(Full-Text Search)
- 支持对文本内容进行高效、相关性排序的搜索(比如搜“苹果手机”,能匹配“iPhone 15”)。
- 内置分词器(如中文需配合IK分词插件)。
- 支持模糊搜索、短语匹配、高亮显示等。
2.近实时(Near Real-Time)
数据写入后,默认1秒内即可被搜索到(不是传统数据库的“立即可见”,但对大多数场景足够快)。
3.分布式 & 高可用
- 数据自动分片(shard)并分布在多个节点上。
- 支持水平扩展:加机器就能提升性能和容量。
- 副本机制(replica)保证高可用,即使某个节点宕机,数据仍可访问。
4.RESTful API
- 所有操作通过HTTP接口完成,使用JSON作为数据格式。
- 易于与任何编程语言集成(Python、Java、Go等)。
5.强大的聚合分析(Aggregations)
不只是“查找”,还能“统计”:
类似SQL中的GROUP BY + COUNT/SUM/AVG,但更灵活强大。
6.Schema-free(动态映射)
- 无需预先定义表结构(但建议显式定义mapping以优化性能和准确性)。
- 插入JSON文档时,Elasticsearch自动推断字段类型(如 price: 7999 → long)。
| 场景 | 说明 |
|---|---|
| 电商网站搜索 | 用户输入关键词,快速返回相关商品 |
| 日志分析(ELK Stack) | 收集服务器/应用日志,用Kibana可视化(Logstash → Elasticsearch → Kibana) |
| APM(应用性能监控) | 如Elastic APM,追踪请求延迟、错误率 |
| 推荐系统 | 基于用户行为做相似内容推荐 |
| 安全分析(SIEM) | 检测异常登录、网络攻击等 |
2.前提条件
- 操作系统:CentOS 7
- Java环境(Elasticsearch 8.x要求Java环境)
- root或sudo权限
注意:Elasticsearch 8.x默认启用安全功能(TLS/HTTPS、内置用户等)。若仅用于本地测试,可选择关闭安全特性(不推荐生产环境)。
Elasticsearch是用Java编写的,因此需要[Java 环境](https://so.csdn.net/so/search?q=Java 环境&spm=1001.2101.3001.7020)。首先安装JDK(版本8或更高版本)。
查看当前安装的java版本:
java-version3.安装Elasticsearch
3.1 下载Elasticsearch
在Elasticsearch 官网下载最新版本的Elasticsearch。
选择适合你系统的版本(Linux、Windows等),下载并解压到合适的目录:
点进去后会有下载命令,复制即可,我这里下载到/app目录下:
wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.29-linux-x86_64.tar.gzwgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.29-linux-x86_64.tar.gz.sha512 sha512sum-celasticsearch-7.17.29-linux-x86_64.tar.gz.sha512tar-xzfelasticsearch-7.17.29-linux-x86_64.tar.gzmvelasticsearch-7.17.29 elasticsearchcdelasticsearch配置文件路径:config/elasticsearch.yml:
vimconfig/elasticsearch.yml# 节点名称(可选)node.name: node-1# 绑定所有 IP(允许远程访问,测试用;生产请限制 IP)network.host:0.0.0.0# 修改 HTTP 端口(9200端口冲突)http.port:9201# 集群的名字,默认为 elasticsearch。可以根据需要修改。cluster.name: my-app# 在首次启动时指定初始主节点,用于集群发现。cluster.initial_master_nodes:["node-1"]3.2 启动Elasticsearch
启动Elasticsearch服务:
./bin/elasticsearch错误提示说明Elasticsearch无法以root用户启动。出于安全考虑,Elasticsearch明确禁止使用root账户运行。请创建一个普通(非root)用户,并使用该用户来启动和管理Elasticsearch服务。
创建一个新的用户:
sudouseraddelasticsearchsudopasswdelasticsearch将Elasticsearch相关目录的所有权递归地分配给elasticsearch用户和elasticsearch用户组,以确保该用户有权限读写这些文件和目录:
sudochown-Relasticsearch:elasticsearch /app/elasticsearch/sudochown-Relasticsearch:elasticsearch /app/elasticsearch/datasudochown-Relasticsearch:elasticsearch /app/elasticsearch/logs以新用户身份启动Elasticsearch: 切换到新创建的elasticsearch用户:
su- elasticsearch./app/elasticsearch/bin/elasticsearch如果启动Elasticsearch服务成功,可以加上-d参数来后台启动:
./bin/elasticsearch-d验证是否安装成功:
curlhttp://localhost:9201在浏览器中输入:http://192.168.42.140/:9201 即可看到elasticsearch的响应结果:
3.3 启动过程中遇到的问题
问题 1:文件描述符限制太低
- 当前值:4096
- 要求至少:65535
- 影响:Elasticsearch需要同时打开大量文件(索引、日志、网络连接等),限制过低会导致性能下降或崩溃。
解决方法:永久提升vm.max_map_count。
# 查看当前值cat/proc/sys/vm/max_map_count# 临时生效(重启失效)sudosysctl-wvm.max_map_count=262144# 永久生效echo"vm.max_map_count=262144"|sudotee-a/etc/sysctl.confsudosysctl-p问题 2:Bootstrap Check失败
Linux系统对每个用户进程能打开的文件数量有限制。Elasticsearch是高并发、多文件系统应用(索引、日志、网络连接等),默认的4096远远不够。
解决方法:确认并修改对应配置。
1.确认limits配置已写入:
sudovi/etc/security/limits.conf确保包含以下内容(elasticsearch是你的运行用户):
elasticsearch soft nofile65535elasticsearch hard nofile655352.确保PAM支持limits:
检查/etc/pam.d/su是否包含(取消注释):
session required pam_limits.so3.完全退出并重新登录elasticsearch用户:
exit# 退出当前 elasticsearch 会话# 重新 ssh 登录或 su - elasticsearchsu- elasticsearch4.验证当前限制
ulimit-n#正确输出应为:655354.Elasticsearch常规操作
确保Elasticsearch已正常运行,可通过curl http://localhost:9201 测试,返回类似以下JSON信息表示服务已就绪:
{"name":"node-1","cluster_name":"my-app","version":{...},"tagline":"You Know, for Search"}4.1 查看集群健康状态:
curl-XGET"http://localhost:9201/_cluster/health?pretty"返回status: green表示一切正常。
4.2 创建索引(Index)
curl-XPUT"http://localhost:9201/products?pretty"索引名必须小写。
4.3 写入文档(自动创建ID)
curl-XPOST"http://localhost:9201/products/_doc"\-H"Content-Type: application/json"\-d'{ "name": "iPhone 15", "price": 7999, "category": "phone" }'4.4 写入文档(指定ID)
curl-XPUT"http://localhost:9201/products/_doc/1001"\-H"Content-Type: application/json"\-d'{ "name": "MacBook Pro", "price": 15999, "category": "laptop" }'4.5 查询文档
根据ID查询:
curl-XGET"http://localhost:9201/products/_doc/1001?pretty"全文搜索(简单查询):
curl-XGET"http://localhost:9201/products/_search?q=name:iphone&pretty"使用Query DSL(推荐):
curl-XPOST"http://localhost:9201/products/_search"\-H"Content-Type: application/json"\-d'{ "query": { "match": { "name": "iPhone" } } }'也可以使用浏览器搜索:192.168.42.140:9201/products/_search
4.6 更新文档
curl-XPOST"http://localhost:9201/products/_doc/1001/_update"\-H"Content-Type: application/json"\-d'{ "doc": { "price": 14999 } }'更新后
4.7 删除文档或索引
删除文档:
curl-XDELETE"http://localhost:9201/products/_doc/1001"删除整个索引:
curl-XDELETE"http://localhost:9201/products"在去网页搜索发现报错是空的,代表删除成功:192.168.42.140:9201/products/_search
那么问题来了,假设你在本地开发了一套基于Elasticsearch的搜索系统(比如商品搜索、日志分析等),运行在你自己的电脑上(localhost:9201)。
现在你想:
- 让同事访问你的Elasticsearch接口进行联调?
- 把本地数据展示给远程客户看?
- 在公网测试一个依赖ES的Web应用?
但你的电脑在内网,没有公网IP,也没有服务器。这时候,传统方式需要配置路由器、DDNS、端口映射……非常麻烦,甚至不可行。
解决方案:用cpolar内网穿透!
5.安装cpolar实现随时随地开发
5.1 什么是cpolar?
cpolar是一款安全高效的内网穿透工具,无需公网IP或复杂配置,只需一条命令,即可将本地服务器、Web服务或任意端口映射到公网,让你随时随地远程访问内网应用,特别适合开发调试、远程运维和应急部署等场景。
5.2 部署cpolar
cpolar 可以将你本地电脑中的服务(如 SSH、Web、数据库)映射到公网。即使你在家里或外出时,也可以通过公网地址连接回本地运行的开发环境。
❤️以下是安装cpolar步骤:
使用一键脚本安装命令:
sudocurlhttps://get.cpolar.sh|sh安装完成后,执行下方命令查看cpolar服务状态:(如图所示即为正常启动)
sudosystemctl status cpolarCpolar安装和成功启动服务后,在浏览器上输入虚拟机主机IP加9200端口即:【http://ip:9200】访问Cpolar管理界面,使用Cpolar官网注册的账号登录,登录后即可看到cpolar web 配置界面,接下来在web 界面配置即可:
打开浏览器访问本地9200端口,使用cpolar账户密码登录即可,登录后即可对隧道进行管理。
6.配置公网地址
登录cpolar web UI管理界面后,点击左侧仪表盘的隧道管理——创建隧道:
- 隧道名称:可自定义,本例使用了:ela,注意不要与已有的隧道名称重复
- 协议:http
- 本地地址:9201
- 域名类型:随机域名
- 地区:选择China Top
创建成功后,打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了公网地址,接下来就可以在其他电脑或者移动端设备(异地)上,使用地址访问。
访问成功。
接下来可以尝试一下,在同事电脑创建索引~
curl-XPUT"http://24479b89.r2.cpolar.top/products?pretty"网页更新成功。
7.保留固定公网地址
使用cpolar为其配置二级子域名(cpolar官网-安全的内网穿透工具 | 无需公网ip | 远程访问 | 搭建网站),该地址为固定地址,不会随机变化。
点击左侧的预留,选择保留二级子域名,地区选择china Top,然后设置一个二级子域名名称,我使用的是elasticsearch,大家可以自定义。填写备注信息,点击保留。
登录cpolar web UI管理界面,点击左侧仪表盘的隧道管理——隧道列表,找到所要配置的隧道,点击右侧的编辑。
修改隧道信息,将保留成功的二级子域名配置到隧道中
- 域名类型:选择二级子域名
- Sub Domain:填写保留成功的二级子域名
- 地区: China Top
点击更新
更新完成后,打开在线隧道列表,此时可以看到随机的公网地址已经发生变化,地址名称也变成了保留和固定的二级子域名名称。
最后,我们使用固定的公网地址在任意设备的浏览器中访问,可以看到成功访问的页面,这样一个永久不会变化的二级子域名公网网址即设置好了。
总结
体验下来,Elasticsearch 最大的价值并不是查询速度快。
而是它改变了解决问题的思路。
以前很多搜索需求都会下意识交给数据库完成。可当数据规模逐渐增长之后,你会发现数据库越来越像仓库,而 Elasticsearch 更像图书馆管理员。它不负责存储所有东西,却能帮你在最短时间找到想要的内容。
尤其是在日志分析、电商搜索、内容检索和实时统计等场景中,Elasticsearch 的优势会更加明显。全文检索、聚合分析、分布式扩展以及近实时搜索能力,让它成为很多企业技术架构中的核心组件。
而通过本文的部署实践,从环境准备、用户权限配置到常见报错处理,再到索引管理和文档操作,已经能够快速搭建起一个完整可用的 Elasticsearch 环境。对于学习 ELK、日志分析或者搜索系统开发来说,这都是一个非常好的起点。
再结合 cpolar 提供的公网访问能力后,本地部署的 Elasticsearch 也能够实现远程联调、异地演示和接口测试,不再受限于局域网环境。无论是团队协作还是客户演示,都会方便很多。
很多人第一次学习 Elasticsearch,是因为工作需要。
但真正用上一段时间之后就会发现:
它解决的从来不是搜索框的问题。
而是当数据越来越多时,你还能不能快速找到答案的问题。
