为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用 Spark 更改所有数据集中的非数值?

如何使用 Spark 更改所有数据集中的非数值?

潇潇雨雨 2022-10-07 16:17:28
我正在使用一个包含很多列的数据集,这个数据集有?在所有数据集中。我想用 Spark (Java) 来改变 ? 到 0。到目前为止,我只能用一列做到这一点,但我想在任何地方都这样做:    Dataset<Row> csvData = spark.read()            .option("header", false)            .option("inferSchema", true)            .option("maxColumns", 50000)            .csv("src/main/resources/K9.data");    csvData = csvData.withColumn("_c5409", when(col("_c5409").isNull(),0).otherwise(col("_c5409")) )        .withColumn("_c0", when(col("_c0").equalTo("?"),0).otherwise(col("_c0")) );也许这有一个简单的解决方案,我是 Java 和 Spark 的新手 :)
查看完整描述

1 回答

?
UYOU

TA贡献1878条经验 获得超4个赞

您可以使用 when 创建列列表,并在 select 中使用它是否必须处理复杂的 if 和 else 情况


List<org.apache.spark.sql.Column> list = new ArrayList<org.apache.spark.sql.Column>();

for( String col : csvData.columns()){

    list.add(when(csvData.col(col).isNull(),0).otherwise(csvData.col(col)).alias(col));

}

csvData = csvData.select(list.toArray(new org.apache.spark.sql.Column[0]));


如果只是简单地替换空值,这就足够了


csvData = csvData.na().fill(0, df.columns()); 


查看完整回答
反对 回复 2022-10-07
  • 1 回答
  • 0 关注
  • 159 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号