17370845950

新闻动态

Elasticsearch 搜索与 Java 开发实战 (全网最全面教程)

如何结合 elasticsearch 与 java 开发构建搜索应用？1. 环境搭建包括安装 elasticsearch、配置 java 开发环境及添加 elasticsearch java high level rest client 依赖；2. 核心概念涵盖索引、文档、映射、查询和分析器；3. 基本操作涉及连接 elasticsearch、创建索引、索引文档、搜索文档、更新文档和删除文档；4. 高级查询支持布尔查询、范围查询、模糊查询、前缀查询、通配符查询和聚合查询；5. 性能优化需合理设计 mapping、使用批量操作、优化查询语句、使用缓存并监控集群。选择客户端时推荐官方支持的 high level rest client，处理深度分页可使用 scroll api 创建游标分批检索，数据分析则通过聚合功能实现，如按字段分组统计。

Elasticsearch 与 Java 开发结合，能构建强大的搜索应用。本文旨在提供一个全面的教程，助你掌握相关技能。

解决方案

Elasticsearch 提供了 RESTful API，而 Java 则可以通过多种客户端与之交互。核心在于理解如何构建查询请求，处理响应数据，以及优化搜索性能。

1. 环境搭建：

Elasticsearch 安装： 下载并安装最新版本的 Elasticsearch。确保正确配置 elasticsearch.yml 文件，包括网络设置和 JVM 参数。
Java 开发环境： 确保安装了 JDK 1.8 或更高版本。使用 Maven 或 Gradle 管理项目依赖。
Elasticsearch Java 客户端： 在 Maven 或 Gradle 中添加 Elasticsearch Java High Level REST Client 依赖。例如，Maven 的配置如下：
```
    org.elasticsearch.client
    elasticsearch-rest-high-level-client
    7.17.6
```

2. 核心概念：

索引（Index）： 类似于数据库中的表。
文档（Document）： 类似于数据库中的行，以 JSON 格式存储。
映射（Mapping）： 定义文档字段的类型和属性。
查询（Query）： 用于搜索文档的请求。
分析器（Analyzer）： 将文本分解为词条（Token）的组件，影响搜索结果。

3. 基本操作：

连接 Elasticsearch：

RestHighLevelClient client = new RestHighLevelClient(
        RestClient.builder(
                new HttpHost("localhost", 9200, "http")));

创建索引：

CreateIndexRequest request = new CreateIndexRequest("my_index");
request.mapping(
        "{\n" +
                "  \"properties\": {\n" +
                "    \"title\": {\n" +
                "      \"type\": \"text\"\n" +
                "    },\n" +
                "    \"content\": {\n" +
                "      \"type\": \"text\"\n" +
                "    }\n" +
                "  }\n" +
                "}",
        XContentType.JSON);
CreateIndexResponse createIndexResponse = client.indices().create(request, RequestOptions.DEFAULT);

索引文档：

IndexRequest request = new IndexRequest("my_index");
request.id("1");
String jsonString = "{" +
        "\"title\":\"Elasticsearch 教程\"," +
        "\"content\":\"Elasticsearch 是一个强大的搜索和分析引擎\"" +
        "}";
request.source(jsonString, XContentType.JSON);
IndexResponse indexResponse = client.index(request, RequestOptions.DEFAULT);

搜索文档：

SearchRequest searchRequest = new SearchRequest("my_index");
SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
sourceBuilder.query(QueryBuilders.matchQuery("content", "搜索"));
searchRequest.source(sourceBuilder);
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

SearchHits hits = searchResponse.getHits();
for (SearchHit hit : hits) {
    System.out.println(hit.getSourceAsString());
}

更新文档：

UpdateRequest request = new UpdateRequest("my_index", "1");
String jsonString = "{" +
        "\"content\":\"Elasticsearch 是一个强大的分布式搜索和分析引擎\"" +
        "}";
request.doc(jsonString, XContentType.JSON);
UpdateResponse updateResponse = client.update(request, RequestOptions.DEFAULT);

删除文档：

DeleteRequest request = new DeleteRequest("my_index", "1");
DeleteResponse deleteResponse = client.delete(request, RequestOptions.DEFAULT);

4. 高级查询：

布尔查询（Boolean Query）： 组合多个查询条件。
范围查询（Range Query）： 搜索指定范围内的值。
模糊查询（Fuzzy Query）： 允许一定的拼写错误。
前缀查询（Prefix Query）： 搜索以指定前缀开头的词条。
通配符查询（Wildcard Query）： 使用通配符进行搜索。
聚合查询（Aggregation Query）： 用于统计和分析数据。

5. 性能优化：

合理设计 Mapping： 选择合适的字段类型和分析器。
使用批量操作： 减少网络请求次数。
优化查询语句： 避免使用通配符查询和模糊查询。
使用缓存： 缓存常用的查询结果。
监控 Elasticsearch 集群： 及时发现和解决性能问题。

Elasticsearch Java High Level REST Client 相比 TransportClient 更加灵活，并且在未来的版本中将会被官方推荐使用。

如何选择合适的 Elasticsearch Java 客户端？

选择 Elasticsearch Java 客户端主要考虑以下几点：官方支持、性能、易用性和社区活跃度。High Level REST Client 是官方推荐，也是未来的趋势。Transport Client 虽然稳定，但已被弃用。REST Client 则更底层，需要更多手动处理。

如何处理 Elasticsearch 的 Scroll API 来进行深度分页？

Scroll API 允许你检索大量数据，而不会受到深度分页的限制。它通过创建一个游标（Scroll ID）来记住上次检索的位置，并允许你继续检索下一批数据。

SearchRequest searchRequest = new SearchRequest("my_index");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.query(QueryBuilders.matchAllQuery());
searchRequest.source(searchSourceBuilder);
searchRequest.scroll(TimeValue.timeValueMinutes(1)); // 设置 scroll 的有效时间

SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
String scrollId = searchResponse.getScrollId();
SearchHits hits = searchResponse.getHits();

while (hits.getHits().length > 0) {
    for (SearchHit hit : hits) {
        System.out.println(hit.getSourceAsString());
    }

    SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);
    scrollRequest.scroll(TimeValue.timeValueMinutes(1));
    searchResponse = client.scroll(scrollRequest, RequestOptions.DEFAULT);
    scrollId = searchResponse.getScrollId();
    hits = searchResponse.getHits();
}

// 清除 scroll
ClearScrollRequest clearScrollRequest = new ClearScrollRequest();
clearScrollRequest.addScrollId(scrollId);
ClearScrollResponse clearScrollResponse = client.clearScroll(clearScrollRequest, RequestOptions.DEFAULT);

如何使用 Elasticsearch 的聚合功能进行数据分析？

Elasticsearch 的聚合功能非常强大，可以用于各种数据分析场景，比如统计、分组、计算平均值等等。

SearchRequest searchRequest = new SearchRequest("my_index");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
AggregationBuilder aggregationBuilder = AggregationBuilders.terms("group_by_title").field("title.keyword"); // 使用 keyword 类型进行精确匹配
searchSourceBuilder.aggregation(aggregationBuilder);
searchRequest.source(searchSourceBuilder);

SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

Terms terms = searchResponse.getAggregations().get("group_by_title");
List buckets = terms.getBuckets();

for (Terms.Bucket bucket : buckets) {
    System.out.println("Title: " + bucket.getKeyAsString() + ", Count: " + bucket.getDocCount());
}

需要注意的是，对于文本类型的字段，通常需要使用 .keyword 后缀来访问其未经分析的原始值，以便进行精确匹配和聚合。

17370845950

关于我们

服务项目

广告推广

案例欣赏