已解决430363个问题，去搜搜看，总会有你想问的

如何为以下语句编写等效的 pyspark 代码？

关注

首页猿问如何为以下语句编写等效的...

Python

扬帆大鱼 2022-07-12 14:55:06

X_train[var] = np.where(X_train[var].isin(frequent_ls), X_train[var], 'Rare')如何用 pyspark sql 函数替换 numpy？

查看完整描述

2 回答

茅侃侃

TA贡献1842条经验获得超22个赞

你定义一个 udf 函数

from spark.sql import function as F

from pyspark.sql.types import StringType()

def dictonnary(x):

if x in frequent_ls:

return x

else:

return "rare"

replace = F.udf(lambda x: dictionnary(x), StrungType())

Xtrain = xtrain.withColumn("var2", replace(F.col("var")))

反对回复 2022-07-12

呼啦一阵风

TA贡献1802条经验获得超6个赞

您可以简单地使用 . isin操作员：

import pyspark.sql.functions as F

X_train = (X_train

.withColumn(var, F.when(X_train[var].isin(frequent_ls), X_train[var]).otherwise('Rare'))

反对回复 2022-07-12

关注

0/150

提交

取消

购课补贴
联系客服咨询优惠详情

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号