免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8326 | 回复: 0

[Spark] spark 新手,请教spark 如何写二进制文件到hdfs [复制链接]

论坛徽章:
0
发表于 2018-03-14 20:58 |显示全部楼层
本帖最后由 tianhailong 于 2018-03-14 21:01 编辑

我目前做一个spark 应用开发,
读取一些点云数据(二进制格式),随后做一系列处理后
保存为普通的二进制文件,保存在 hdfs上边,

我使用python 开发,通过hadoop 文件api 写文件到hdfs
    Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
    FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
    Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration


def save_file_content(fileContent, fileName, savePath, Path, FileSystem, Configuration):
      fs = FileSystem.get(Configuration())
      output = fs.create(Path(savePath + "/" + fileName))
  
      output.write(bytearray(fileContent))
      output.close()
  
但是这个只能在driver 机器执行,我把rdd 放在 driver 机器遍历写入,
content = rdd.collect()
for i in content:
    save(i, savePath, Path, FileSystem, Configuration)

但是这种方式数据量大时会内存溢出,请问有什么更好的方向写入hdfs 吗?

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

数据风云,十年变迁
DTCC 第十届中国数据库技术大会已启航!

2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京隆重召开。大会将邀请百余位行业专家,就热点技术话题进行分享,是广大数据领域从业人士的又一次年度盛会和交流平台。与SACC2018类似,本届大会将采用“3+2”模式:3天传统技术演讲+2天深度主题培训。大会不仅提供超100场的主题演讲,还会提供连续2天的深度课程培训,深化数据领域的项目落地实践方案。
DTCC2019,一场值得期待的数据技术盛会,殷切地希望您报名参与!

活动入口>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP