使用Perl解析Parquet文件

3

如何使用Perl正确解析Parquet文件?

除了一些Amazon Web Services模块中的逻辑代码没有提供任何可用的解析代码外,CPAN似乎没有任何模块可以做到这一点。

建议采用其他编程语言或手动解析。

"Original Answer"翻译成"最初的回答"。


这些是二进制文件吗?请参考如何使用Perl解析二进制数据来了解一种方法。 - undefined
@HåkonHægland - Apache Hadoop有非常具体的格式要求。 - undefined
似乎有一个C++库https://github.com/apache/parquet-cpp可以用Perl XS封装成Perl接口。 - undefined
它可以作为一个Alien构建,然后通过XS或FFI来使用,但是构建所需的第三方依赖看起来有些复杂。 - undefined
1个回答

1

没有一个单独的模块可以完成这个任务,但是有一种方法。首先,请注意Parquet 格式具有Thrift 规范,可以被Thrift::IDL解析。再加上Convert::Binary::C或@HåkonHægland发布的链接,这些都可以帮助你入门。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接