我已经看到了几个类似的问题,但对我的情况却不是令人满意的答案。这是一个示例DataFrame:+------+-----+----+|    id|value|type|+------+-----+----+|283924|  1.5|   0||283924|  1.5|   1||982384|  3.0|   0||982384|  3.0|   1||892383|  2.0|   0||892383|  2.5|   1|+------+-----+----+我只想通过"id"和"value"列来识别重复项,然后删除所有实例。在这种情况下:第1行和第2行是重复的(同样,我们忽略了“类型”列)第3行和第4行是重复的,因此仅应保留第5行和第6行:输出为:+------+-----+----+|    id|value|type|+------+-----+----+|892383|  2.5|   1||892383|  2.0|   0|+------+-----+----+我试过了df.dropDuplicates(subset = ['id', 'value'], keep = False)但是“保持”功能不在PySpark中(因为它在中)pandas.DataFrame.drop_duplicates。我还能怎么做?
                    
                    
                添加回答
举报
0/150
	提交
		取消
	