java es scroll_java 调用 es restful api 使用 scroll 查询索引的全部数据

需求查询某个索引的全部数据，用于导出什么是 scroll 查询scroll 查询可以用来对 Elasticsearch 有效地执行大批量的文档查询，而又不用付出深度分页那种代价。游标查询允许我们先做查询初始化，然后再批量地拉取结果。这有点儿像传统数据库中的 cursor 。游标查询会取某个时间点的快照数据。查询初始化之后索引上的任何变化会被它忽略。它通过保存旧的数据文件来实现这个特性，结

weixin_39962675

304人浏览 · 2021-02-16 02:09:14

weixin_39962675 · 2021-02-16 02:09:14 发布

需求

查询某个索引的全部数据，用于导出

什么是 scroll 查询

scroll 查询可以用来对 Elasticsearch 有效地执行大批量的文档查询，而又不用付出深度分页那种代价。

游标查询允许我们先做查询初始化，然后再批量地拉取结果。这有点儿像传统数据库中的 cursor 。

游标查询会取某个时间点的快照数据。查询初始化之后索引上的任何变化会被它忽略。它通过保存旧的数据文件来实现这个特性，结果就像保留初始化时的索引视图一样。

深度分页的代价根源是结果集全局排序，如果去掉全局排序的特性的话查询结果的成本就会很低。游标查询用字段 _doc 来排序。这个指令让 Elasticsearch 仅仅从还有结果的分片返回下一批结果。

启用游标查询可以通过在查询的时候设置参数 scroll 的值为我们期望的游标查询的过期时间。游标查询的过期时间会在每次做查询的时候刷新，所以这个时间只需要足够处理当前批的结果就可以了，而不是处理查询结果的所有文档的所需时间。这个过期时间的参数很重要，因为保持这个游标查询窗口需要消耗资源，所以我们期望如果不再需要维护这种资源就该早点儿释放掉。设置这个超时能够让 Elasticsearch 在稍后空闲的时候自动释放这部分资源。

具体使用

public static void exportExcel(String ip, String name, String type) throws HttpProcessException, IOException {

// 请求体，查询条件

JSONObject jsonObject = JSONUtil.parseObj(json);

jsonObject.putOpt("size", 10000);

HttpConfig config = HttpConfig.custom()

.url("http://" + ip + ":9200/" + name + "/" + type + "/_search?scroll=1m")

.json(jsonObject.toString());

String response = HttpClientUtil.post(config);

//解析查询结果

JSONObject object = JSONUtil.parseObj(response);

if (response.contains("error")) {

String reason = object.getJSONObject("error").getStr("reason");

return;

}

// 获取本次查询的 scroll_id，后续查询带上这个 id 即可

String scroll_id = object.getStr("_scroll_id");

JSONObject hits = object.getJSONObject("hits");

// 结果集

JSONArray hitsArray = hits.getJSONArray("hits");

List hitsList = hitsArray.toList(JSONObject.class);

JSONObject scroll = new JSONObject();

scroll.putOpt("scroll_id", scroll_id);

scroll.putOpt("scroll", "2m");

// 循环

while (hitsList.size() != 0) {

// 这里填写你的业务逻辑，即对每一条数据的处理

// 继续向后查询

config = HttpConfig.custom()

.url("http://" + ip + ":9200/_search/scroll")

.json(JSONUtil.toJsonStr(scroll));

object = JSONUtil.parseObj(HttpClientUtil.post(config));

hits = object.getJSONObject("hits");

// 结果集

hitsArray = hits.getJSONArray("hits");

hitsList = hitsArray.toList(JSONObject.class);

}

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

踩坑三周，我终于把 Claude Code 和 Codex 塞进了浏览器— 一个让手机也能写代码的疯狂想法

AI编程社区

Sisyphus深度技术测评：面向未来的AI编程代理框架 oh-my-opencode

Sisyphus是一个前沿的AI编程代理框架，采用多代理协同系统架构，包含核心代理和专业代理分工协作。技术亮点包括强化学习优化的编排引擎和多模型兼容层，使代码生成效率提升37%。项目展现了"开源+商业"双轨模式，社区增长迅速但面临法律合规性挑战。作为第三代AI编程助手的代表，它突破了传统代码补全模式，实现了自主代理系统，为行业设立了新标准。虽然商业成熟度尚待验证，但其技术创新值