我该如何将本地ORC文件转换为CSV？

Question

8

我在本地机器上有一个ORC文件，我需要从中获取任何合理的格式（例如CSV，JSON，YAML等）。

如何将ORC转换为CSV？

- Martin Thoma

2个回答

0

另一个选择可能是bigdata-file-viewer，它是一个跨平台应用程序。您可以打开ORC文件并将文件保存为CSV格式。

详细使用方法如下：

从发布页面下载可运行的jar文件或按照构建部分中的说明从源代码构建。
通过java -jar BigdataFileViewer-1.2-SNAPSHOT-jar-with-dependencies.jar调用它
通过“文件”->“打开”打开二进制格式文件。目前，它可以打开带有parquet后缀、orc后缀和avro后缀的文件。如果未指定后缀，工具将尝试将其提取为Parquet文件
通过“视图”->输入最大行数->“转到”设置每个页面的最大行数
通过“视图”->“添加/删除属性”设置可见属性
通过“文件”->“另存为”->“CSV”将其转换为CSV文件
展开“模式信息”面板以检查模式信息

- Eugene

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Martin Thoma · Accepted Answer

这是我使用它们的方法 - 您可能需要调整路径：

java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json

输出结果是JSON Lines格式，很容易转换为CSV格式。首先需要从输出中删除最后两行，然后：

import pandas as pd

df = pd.read_json('output.json', lines=True)
df.to_csv('output.csv')