我有一个CSV文件,其中包含多个字段。有一些字段的数据以字节数组格式(b'1234')出现。我想要删除这些b'(将其从字节数组转换为字符串)。
我了解到可以有两种方法将字节数组转换为字符串。
由于CSV中有很多字段,其中只有少数字段包含字节数组,因此我无法直接将函数应用于每个字段。我不知道哪些是字节数组字段,哪些是字符串、整数字段。
有什么建议可以将CSV文件中的字节数组转换为字符串。我正在尝试在Spark中完成这个操作。
我的代码片段:
输入数据:
由于模式动态更改,我们无法知道哪些是字节数组,哪些是字符串。我尝试了this的解决方案,但它对我没有起作用(将所有字段转换为NaN)。
我了解到可以有两种方法将字节数组转换为字符串。
>>> s1 = b'Hi'
>>> s2 = s1.decode('utf-8')
>>> print(s2)
Hi
>>> s1 = b'Hi'
>>> s2 = str(s1, 'utf-8')
>>> print(s2)
Hi
由于CSV中有很多字段,其中只有少数字段包含字节数组,因此我无法直接将函数应用于每个字段。我不知道哪些是字节数组字段,哪些是字符串、整数字段。
有什么建议可以将CSV文件中的字节数组转换为字符串。我正在尝试在Spark中完成这个操作。
我的代码片段:
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true') \
.option("delimiter", ",")\
.option("multiLine", "true")\
.load("file.csv")
输入数据:
b'1234',b'123',Hi,"Hello",b'2FB',b'272',b'4943',b'786',2018-02-19,,Out,768,"Data",b'502',351,
由于模式动态更改,我们无法知道哪些是字节数组,哪些是字符串。我尝试了this的解决方案,但它对我没有起作用(将所有字段转换为NaN)。
univocity
全是垃圾)!如果不使用迭代器,数据将如何处理?如果要将解析器受到迭代,那你为什么还要使用它呢?解决自己的问题,而不是别人的问题。 - dsgdfgCSV_BUFF.split("\r\n").pop(0) == univocity
? - dsgdfg