正如问题所述,我想在大型数据集中查找列值格式的异常。
例如:如果我有一个包含500万行数据的日期列,我希望确保该列中所有行的日期格式为MM-DD-YYYY。 我想查找格式异常的计数和值。
我该怎么做? 我可以使用正则表达式吗? 有人能给出一个例子吗? 我想使用Spark Dataframe完成这个任务。
例如:如果我有一个包含500万行数据的日期列,我希望确保该列中所有行的日期格式为MM-DD-YYYY。 我想查找格式异常的计数和值。
我该怎么做? 我可以使用正则表达式吗? 有人能给出一个例子吗? 我想使用Spark Dataframe完成这个任务。