为了账号安全,请及时绑定邮箱和手机立即绑定

通过执行数据库提取操作动态生成 Spark 列

通过执行数据库提取操作动态生成 Spark 列

慕无忌1623718 2022-08-17 15:42:04
我有一个包含2列的火花数据帧。我想在火花数据帧上生成第3列。第 3 列必须由使用前 2 列从 DB 提取的值填充。data = data.withColumn("z", getValueOfZ(col("x"),col("y")));我无法弄清楚,如何在函数中使用x和y填充y的值。getValueOfZ() 需要根据 x 和 y 的值执行选择查询,并返回 Z 的值getValueOfZ()
查看完整描述

1 回答

?
芜湖不芜

TA贡献1796条经验 获得超7个赞

我不知道应该做什么。使用 Spark 有 3 个选项。getValueOfY()

操作简单

如果是简单的操作,则可以使用.例如,如果结果是 x 和 y 的总和,则可以使用:expr()

df = df.withColumn("y", expr("x + y")));

您可以通过以下方式使用:expr()

import static org.apache.spark.sql.functions.expr;

内置函数

Spark提供了很多这样的功能。他们的Javadoc可以在这里找到

自定义 UDF 转换

如果您的代码更复杂,并且无法通过表达式或函数进行处理,则可以调用 UDF(用户定义函数)。

我希望它有帮助,不要犹豫,评论提出更多问题。


查看完整回答
反对 回复 2022-08-17
  • 1 回答
  • 0 关注
  • 137 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号