为了账号安全,请及时绑定邮箱和手机立即绑定

如何为以下语句编写等效的 pyspark 代码?

如何为以下语句编写等效的 pyspark 代码?

扬帆大鱼 2022-07-12 14:55:06
 X_train[var] = np.where(X_train[var].isin(frequent_ls), X_train[var], 'Rare')如何用 pyspark sql 函数替换 numpy?
查看完整描述

2 回答

?
茅侃侃

TA贡献1842条经验 获得超22个赞

你定义一个 udf 函数


from spark.sql import function as F

from pyspark.sql.types import StringType()


def dictonnary(x):

    if x in frequent_ls: 

        return x 

    else:

        return "rare"


replace = F.udf(lambda x: dictionnary(x), StrungType())


Xtrain = xtrain.withColumn("var2", replace(F.col("var")))


查看完整回答
反对 回复 2022-07-12
?
呼啦一阵风

TA贡献1802条经验 获得超6个赞

您可以简单地使用 . isin操作员:


import pyspark.sql.functions as F


X_train = (X_train

           .withColumn(var, F.when(X_train[var].isin(frequent_ls), X_train[var]).otherwise('Rare'))



查看完整回答
反对 回复 2022-07-12
  • 2 回答
  • 0 关注
  • 146 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号