实战：用Elasticsearch构建爬虫数据搜索引擎

docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 \
  -e "discovery.type=single-node" \
  -e "xpack.security.enabled=false" \
  docker.elastic.co/elasticsearch/elasticsearch:8.12.0

docker run -d --name kibana --link elasticsearch:elasticsearch \
  -p 5601:5601 docker.elastic.co/kibana/kibana:8.12.0

访问http://localhost:5601即可看到Kibana控制台，这是Elasticsearch的可视化管理工具。

2. 索引设计实战

创建索引时需定义字段类型，这直接影响搜索精度。以电商商品为例：

python 复制代码

PUT /products
{
  "mappings": {
    "properties": {
      "title": {"type": "text", "analyzer": "ik_max_word"},
      "price": {"type": "double"},
      "description": {"type": "text"},
      "url": {"type": "keyword"},
      "sales": {"type": "integer"},
      "create_time": {"type": "date"}
    }
  }
}

关键点：

text类型用于全文检索，keyword类型用于精确匹配
中文分词推荐使用ik_max_word分析器（需单独安装IK插件）
数值字段直接使用对应类型（double/integer）

3. 数据导入方案

方案一：Python批量导入

python 复制代码

from elasticsearch import Elasticsearch
import json

es = Elasticsearch(["http://localhost:9200"])

def bulk_insert(data_list, index_name):
    actions = [
        {
            "_index": index_name,
            "_source": item
        }
        for item in data_list
    ]
    helpers.bulk(es, actions)

# 示例：插入10条模拟数据
sample_data = [
    {"title": "华为手机P60", "price": 4999, "description": "超高清影像..."},
    # 其他9条数据...
]
bulk_insert(sample_data, "products")

方案二：Logstash同步

若数据已在MySQL中，可用Logstash实时同步：

python 复制代码

input {
  jdbc {
    jdbc_driver_library => "/path/to/mysql-connector-java.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://localhost:3306/your_db"
    jdbc_user => "root"
    jdbc_password => "password"
    schedule => "* * * * *"  # 每分钟同步一次
    statement => "SELECT * FROM products WHERE update_time > :sql_last_value"
  }
}

output {
  elasticsearch {
    hosts => ["http://localhost:9200"]
    index => "products"
    document_id => "%{id}"
  }
}

三、核心搜索功能实现

1. 基础搜索API

最简单的匹配查询：

python 复制代码

def search_by_keyword(keyword):
    query = {
        "query": {
            "match": {
                "title": keyword
            }
        }
    }
    results = es.search(index="products", body=query)
    return results["hits"]["hits"]

2. 多条件组合查询

查找价格1000-3000元且标题含"手机"的商品：

python 复制代码

def complex_search(keyword, min_price, max_price):
    query = {
        "query": {
            "bool": {
                "must": [
                    {"match": {"title": keyword}},
                    {"range": {"price": {"gte": min_price, "lte": max_price}}}
                ]
            }
        }
    }
    return es.search(index="products", body=query)

3. 高亮显示与排序

让搜索关键词在结果中高亮显示，并按销量降序：

python 复制代码

def highlight_search(keyword):
    query = {
        "query": {"match": {"title": keyword}},
        "highlight": {
            "fields": {"title": {}},
            "pre_tags": ["<em>"],
            "post_tags": ["</em>"]
        },
        "sort": [{"sales": {"order": "desc"}}]
    }
    results = es.search(index="products", body=query)
    for hit in results["hits"]["hits"]:
        print(f"标题: {hit['highlight']['title'][0]}")
        print(f"价格: {hit['_source']['price']}")

四、性能优化秘籍

1. 分片策略设计

单节点环境建议索引分片数为1，副本数为1。当数据量超过50GB时，考虑增加分片：

python 复制代码

PUT /products_large
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  },
  "mappings": { ... }
}

2. 查询缓存利用

对高频查询开启缓存：

python 复制代码

query = {
    "query": {"term": {"category": "手机"}},
    "request_cache": True
}

3. 冷热数据分离

将30天前的数据移至慢索引：

python 复制代码

# 使用Reindex API迁移数据
POST _reindex
{
  "source": {
    "index": "products",
    "query": {
      "range": {
        "create_time": {
          "lte": "now-30d/d"
        }
      }
    }
  },
  "dest": {
    "index": "products_cold"
  }
}

五、实战案例：电商比价系统

假设需要实现"搜索相机，按价格排序，显示最低价渠道"的功能：

1. 数据准备

爬取京东、淘宝、拼多多的相机数据，结构示例：

python 复制代码

{
  "title": "佳能EOS R6微单相机",
  "price": 15999,
  "platform": "京东",
  "shop": "佳能官方旗舰店",
  "specs": "2420万像素 全画幅"
}

2. 聚合查询实现

找出各品牌最低价：

python 复制代码

def get_min_price_by_brand():
    query = {
        "size": 0,
        "aggs": {
            "brands": {
                "terms": {"field": "title.keyword", "size": 10},
                "aggs": {
                    "min_price": {"min": {"field": "price"}}
                }
            }
        }
    }
    result = es.search(index="cameras", body=query)
    for brand in result["aggregations"]["brands"]["buckets"]:
        print(f"{brand['key']}: 最低价{brand['min_price']['value']}元")

3. 结果去重优化

相同商品在不同平台可能标题略有差异，可用collapse字段去重：

python 复制代码

query = {
    "query": {"match": {"title": "相机"}},
    "collapse": {
        "field": "title.keyword",
        "inner_hits": {
            "name": "prices",
            "size": 3,
            "sort": [{"price": "asc"}]
        }
    }
}

六、常见问题Q&A

Q1：被网站封IP怎么办？

A：立即启用备用代理池，建议使用住宅代理（如站大爷IP代理），配合每请求更换IP策略。可在Scrapy中设置：

python 复制代码

class MySpider(scrapy.Spider):
    custom_settings = {
        'DOWNLOADER_MIDDLEWARES': {
            'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
            'myproject.middlewares.ProxyMiddleware': 100,
        },
        'PROXY_LIST': 'proxies.txt'  # 每行一个代理IP:端口
    }

Q2：Elasticsearch集群节点宕机如何处理？

A：首先检查_cat/nodes?v查看节点状态。若主节点宕机，剩余节点会自动选举新主节点。建议配置minimum_master_nodes=(master_eligible_nodes/2)+1防止脑裂。

Q3：如何实现搜索建议（自动补全）？

A：使用completion建议器：

python 复制代码

PUT /products
{
  "mappings": {
    "properties": {
      "suggest": {
        "type": "completion",
        "analyzer": "simple"
      }
    }
  }
}

# 查询时
GET /products/_search
{
  "suggest": {
    "product-suggest": {
      "prefix": "华",
      "completion": {
        "field": "suggest"
      }
    }
  }
}

Q4：数据更新后搜索不到新内容？

A：检查索引的refresh_interval设置（默认1秒）。若需实时可见，可手动刷新：

python 复制代码

es.indices.refresh(index="products")

Q5：如何备份索引数据？

A：使用快照功能：

python 复制代码

PUT /_snapshot/my_backup
{
  "type": "fs",
  "settings": {
    "location": "/mnt/es_backup",
    "compress": true
  }
}

# 创建快照
PUT /_snapshot/my_backup/snapshot_1?wait_for_completion=true

结语

从环境搭建到高级查询，从性能优化到实战案例，本文完整呈现了用Elasticsearch构建爬虫搜索引擎的全流程。实际项目中，还需结合具体业务场景调整分片策略、优化查询语句。记住，搜索引擎的核心是"更快找到更准的信息"，而Elasticsearch正是实现这一目标的利器。