为了账号安全,请及时绑定邮箱和手机立即绑定

如何在pyspark中将列添加到另一个数据框?

如何在pyspark中将列添加到另一个数据框?

交互式爱情 2022-06-02 14:33:39
我是 pyspark 的新手,我试图对我的数据进行一些标记化。我有我的第一个数据框: reviewID|text|stars我根据 pyspark 文档对“文本”进行了标记化:tokenizer = Tokenizer(inputCol="text", outputCol="words")countTokens = udf(lambda words: len(words), IntegerType())tokenized = tokenizer.transform(df2)tokenized.select("text", "words") \    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)我得到了我的令牌,但现在我想转换如下所示的数据框:单词|星星“文字”是我的标记。所以我需要加入我的第一个数据框和标记化的数据框来获得类似的东西。请你帮助我好吗?如何将列添加到另一个数据框?
查看完整描述

1 回答

?
不负相思意

TA贡献1777条经验 获得超10个赞

好的,我现在明白了。我只需要制作:


tokenizer = Tokenizer(inputCol="text", outputCol="words")



tokenized = tokenizer.transform(df2)

tokenized.select("text", "words", "stars").show(truncate=False)


查看完整回答
反对 回复 2022-06-02
  • 1 回答
  • 0 关注
  • 154 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号