我该如何将本地ORC文件转换为CSV?

8

我在本地机器上有一个ORC文件,我需要从中获取任何合理的格式(例如CSV,JSON,YAML等)。

如何将ORC转换为CSV?

2个回答

9
  1. 下载
  2. 解压文件,进入 java 文件夹并执行 maven 命令:mvn install
  3. 使用 ORC-Tools 工具

这是我使用它们的方法 - 您可能需要调整路径:

java -jar ~/.m2/repository/org/apache/orc/orc-tools/1.5.4/orc-tools-1.5.4-uber.jar data ~/your_file.orc > output.json

输出结果是JSON Lines格式,很容易转换为CSV格式。首先需要从输出中删除最后两行,然后:
import pandas as pd

df = pd.read_json('output.json', lines=True)
df.to_csv('output.csv')

2
更好的下载链接:https://www.apache.org/dyn/closer.cgi/orc - Z4-tier

0

另一个选择可能是bigdata-file-viewer,它是一个跨平台应用程序。您可以打开ORC文件并将文件保存为CSV格式。

详细使用方法如下:

  • 从发布页面下载可运行的jar文件或按照构建部分中的说明从源代码构建。
  • 通过java -jar BigdataFileViewer-1.2-SNAPSHOT-jar-with-dependencies.jar调用它
  • 通过“文件”->“打开”打开二进制格式文件。目前,它可以打开带有parquet后缀、orc后缀和avro后缀的文件。如果未指定后缀,工具将尝试将其提取为Parquet文件
  • 通过“视图”->输入最大行数->“转到”设置每个页面的最大行数
  • 通过“视图”->“添加/删除属性”设置可见属性
  • 通过“文件”->“另存为”->“CSV”将其转换为CSV文件
  • 展开“模式信息”面板以检查模式信息

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接