3 回答

TA贡献1880条经验 获得超4个赞
F.when(F.col('Name') == None)
None 是 python 中的对象,NoneType
. 它与空字符串或 0 不同。对于这种情况,您可能希望使用
F.when(F.col('Name') is None)
使用==
你正在检查F.col('Name')
value 是否等于 None 对象,它会把东西扔掉。

TA贡献1829条经验 获得超7个赞

TA贡献1829条经验 获得超7个赞
在数据世界中,两个Null值(或两个值None)并不相同。
因此,如果您对两个值执行==or!=操作None,它总是会产生False. 这是构建功能的isNull()关键原因。isNotNull()
请看下面的例子以便更好地理解 -
创建一个dataframe具有少量有效记录和一个记录的None
from pyspark.sql.types import *
from pyspark.sql import Row
from pyspark.sql.functions import col
lst = [(1,'sometext'),(2,''),(3, None),(4, 'someothertext')]
myrdd = sc.parallelize(lst).map(lambda x: Row(id=x[0], txt=x[1]))
mydf= sqlContext.createDataFrame(myrdd)
isNull()返回True第 3 行,因此下面的语句返回一行 -
mydf.filter(col("txt").isNull()).show(truncate=False)
+---+----+
|id |txt |
+---+----+
|3 |null|
+---+----+
==运算符返回False第 3 行,因此没有记录被过滤掉。
mydf.filter(col("txt") == None).show(truncate=False)
+---+---+
|id |txt|
+---+---+
+---+---+
添加回答
举报