首页手记 ES 滚动重启

ES 滚动重启

标签：

大数据

官方滚动重启的步骤如文档 Rolling Restarts 所述，很清晰，详细，不再赘述。

但在实际的过程中，会发现，即使禁止了分片路由的功能，节点重启后，重新加入集群，也需要较长的时间恢复，这跟自己想当然的情况不太一样。理论上，由于本地已经有了数据，重启后，应该可以直接从本地的数据中恢复分片，而不应该重新从主分片中拉取数据，而导致比较长的分片恢复时间。当然，这里并不是指所有的分片都需要从主分片中同步，有的分片恢复还是很快的。

Google 了下，发现有不少人有跟我类似的疑问，例如这里 Slow recovery during rolling cluster restarts。

Manual synced flush is worthless in some cases. The sync_ids will be overwritten when shards are marked as inactive, even if a synced flush was executed. This happens after 5 minutes (indices.memory.shard_inactive_time) by default, so it might be a lot quicker to wait for all indices to become inactive, instead of relying on synced flush.

从 issue 中的讨论中大概可以猜测，ES 判断能否从 local disk 恢复分片，可能是根据一个叫 sync_id 的东西，只要分片的这两个值，就会从主分片中同步，而不是从 local disk 中恢复。这也大概可以解释为什么建议重启前执行一次 /_flush/synced，以及为什么主分片总是可以很快地恢复，只是副本恢复地很慢。

所以问题回到了为什么副本跟主分片的 sync_id 不一致？理论上执行了 /_flush/synced 之后，主从分片的 sync_id 应该是一致的（在停止了 index 的情况下）。issue 里面还提高了可能是 shard 在 indices.memory.shard_inactive_time 时间（默认 5m）后，被分为 inactive，自动 flush，产生新的 sync_id。道理还是有道理的，但是待确认。

另外有个题外的问题是，为什么 ES 做不到即使在 sync_id 不一致的情况下，也能增量恢复？就像 redis 那样，在一定的 offset 内，可以进行增量复制。或许是受限于底层的 Lucene 数据结构？Who knows！

作者：zczhuohuo
链接：https://www.jianshu.com/p/ad2d777e43ac

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕虎7371278

手记
篇

粉丝

202

获赞与收藏

877

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32261 361

网络编程入门教程

20个小节 13305 251

Pandas 入门教程

25个小节 19926 373

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

ES 滚动重启

阅读免费教程