Spark- Checkpoint原理剖析

博客大数据
19年8月18日
编辑

牛肉丸没牛肉

Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。

在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spark应用，有很高的风险，会出现某个要反复使用的RDD，因为节点的故障,虽然之前持久化过，但是还是导致数据丢失了。那么也就是说，出现失败的时候，没有容错机制，所以当后面的 transformation 操作，又要使用到该RDD时，就会发现数据丢失了（Cache Manager），此时如果没有进行容错处理的话，那么可能就又要重新计算一次数据。简而言之，针对上诉情况，整个Spark应用程序的容错性很差。

所以，针对上诉的复杂Spark 应用的问题（没有容错机制的问题）。就可以使用checkpoint 功能。

checkpoint的功能是什么意思？checkpoint就是说，对于一个复杂的RDD chain，我们如果担心中间某些关键的，在后面会反复几次使用的RDD，可能会因为节点的故障，导致持久化数据的丢失，那么就可以针对该RDD格外启动 checkpoint 机制，实现容错和高可用。

checkpoint 首先要调用 SparkContext 的Checkpoint() 方法，设置一个容错的文件系统的目录，比如说 HDFS ；然后，对RDD调用checkpoint() 方法。之后，在RDD所处的 job 运行结束之后，会启动一个单独的 job，来将checkpoint 过的RDD数据写入之前设置的文件系统，进行高可用、容错的类持久化操作。

那么此时，即便在后面使用RDD时，他的持久话的数量，不小心丢失了，但是还是可以从它的checkpoint文件中直接读取数据，而不是重新计算。

{{userData.name}}已认证

Spark- Checkpoint原理剖析

Spark- 优化后的 shuffle 操作原理剖析

Spark- 性能优化

《世界金融史泡沫、战争与股票市场》

《会计简史：从结绳记事到信息化》

《千年金融史——金融如何塑造文明，从5000年前到21世纪》

《数字货币新论》

读懂Libra

《基于Python的金融分析与风险管理》

{{userData.name}}已认证

推荐阅读:

Spark- 优化后的 shuffle 操作原理剖析

Spark- 性能优化

Spark- Spark普通Shuffle操作的原理剖析

Spark- 性能优化

Spark- 根据ip地址计算归属地

Spark- 求最受欢迎的TopN课程

《世界金融史 泡沫、战争与股票市场》

《会计简史：从结绳记事到信息化》

《千年金融史——金融如何塑造文明，从5000年前到21世纪》

《数字货币新论》

读懂Libra

《基于Python的金融分析与风险管理》

《世界金融史泡沫、战争与股票市场》