为了账号安全,请及时绑定邮箱和手机立即绑定

使用Spark加载CSV文件

使用Spark加载CSV文件

汪汪一只猫 2019-08-08 10:14:43
使用Spark加载CSV文件我是Spark的新手,我正在尝试使用Spark从文件中读取CSV数据。这就是我在做的事情:sc.textFile('file.csv')     .map(lambda line: (line.split(',')[0], line.split(',')[1]))     .collect()我希望这个调用能给我一个我文件的两个第一列的列表,但是我收到了这个错误:File "<ipython-input-60-73ea98550983>", line 1, in <lambda>IndexError: list index out of range虽然我的CSV文件不止一列。
查看完整描述

3 回答

?
慕田峪9158850

TA贡献1794条经验 获得超8个赞

你确定所有的行都至少有2列吗?你可以尝试一下,只是为了检查?:


sc.textFile("file.csv") \

    .map(lambda line: line.split(",")) \

    .filter(lambda line: len(line)>1) \

    .map(lambda line: (line[0],line[1])) \

    .collect()

或者,你可以打印罪魁祸首(如果有的话):


sc.textFile("file.csv") \

    .map(lambda line: line.split(",")) \

    .filter(lambda line: len(line)<=1) \

    .collect()


查看完整回答
反对 回复 2019-08-08
  • 3 回答
  • 0 关注
  • 2309 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号