Spark- Spark从SFTP中读取zip压缩文件数据做计算

博客大数据
19年8月18日
编辑

牛肉丸没牛肉

我们遇到个特别的需求，一个数据接入的流程跑的太慢，需要升级为用大数据方式去处理，提高效率。

数据：

数据csv文件用Zip 压缩后放置在SFTP中

数据来源：

SFTP

数据操作：

文件和它的压缩包一致，后缀不同。文件名中包含渠道、日期、操作标记(“S”追加,”N”全量,”D”删除)

升级前的操作方式：

shell脚本将文件从SFTP下载到Linux服务器本地，解压。

历史数据也下载下来。

根据文件名中的操作标记，对历史数据作操作。

把新的结果数据上传回SFTP。

SFTP上的zip数据移动到备份目录。

升级后的操作方式：

用SFTPUtil工具类将ZIP文件转为输入流作为ZipInputStream的实例化的入参

将解压流作为Hadoop的输出流的入参，此时。

用Spark读取Hadoop的文件抽象RDD

对于两文件

给TA打赏

共{{data.count}}人

人已打赏

SFTP Spark zip压缩文件数据

JAVA- 内部类及匿名内部类

2019-8-18 18:46:39

7B2 WordPress主题侧边栏小工具搜索框无搜索按钮增强文字说明修改办法

2019-8-21 18:20:03

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

《世界金融史泡沫、战争与股票市场》

￥ 35
《会计简史：从结绳记事到信息化》

￥ 28
《千年金融史——金融如何塑造文明，从5000年前到21世纪》

￥ 47
《数字货币新论》

￥ 48
读懂Libra

￥ 48
《基于Python的金融分析与风险管理》

￥ 80

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部