1.sparkStreaming和kafka对接方式,怎么记录kafka的偏移量Direct的方式把offset保存在spark内存中,会有数据丢失的情况,可以手动维护offset,offest可以保存在zk,kafka,mysql,hbase,redis中自己根据情况而定,我选择把offest保存到redis中.创建Dstream之前,先判断是否消费过,如果没有消费就从头开始,如果已经消费过了,就从上次保存的offest处开始消费.
2.hdfs写数据流程.
3.maprecueshuffle和sparkshuffle的区别,关系.
...查看更多