为了账号安全,请及时绑定邮箱和手机立即绑定

在pyspark中选择包含字符串的列

在pyspark中选择包含字符串的列

繁花如伊 2021-08-24 15:12:40
我有一个包含很多列的pyspark 数据框,我想选择包含某个字符串和其他字符串的那些。例如:df.columns = ['hello_world','hello_country','hello_everyone','byebye','ciao','index']我想选择包含'hello'和名为'index'的列,所以结果将是:['hello_world','hello_country','hello_everyone','index']我想要类似的东西 df.select('hello*','index')提前致谢:)编辑:我找到了一个快速解决它的方法,所以我回答了自己,问答风格。如果有人看到我的解决方案并且可以提供更好的解决方案,我将不胜感激
查看完整描述

3 回答

?
料青山看我应如是

TA贡献1772条经验 获得超7个赞

您也可以尝试使用Spark 2.3 中引入的colRegex函数,其中您也可以将列名指定为正则表达式。


查看完整回答
反对 回复 2021-08-24
  • 3 回答
  • 0 关注
  • 441 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信