有没有人知道如何使用NodeJS读取parquet文件?
我尝试了node-parquet
,但安装非常困难(虽然可能),它大多数时间可以工作,但无法读取数字数据类型。
我还尝试了parquetjs
,但它只能读取由其自己库创建的parquet文件。任何由Spark或Python创建的内容都无法读取。
谢谢
有没有人知道如何使用NodeJS读取parquet文件?
我尝试了node-parquet
,但安装非常困难(虽然可能),它大多数时间可以工作,但无法读取数字数据类型。
我还尝试了parquetjs
,但它只能读取由其自己库创建的parquet文件。任何由Spark或Python创建的内容都无法读取。
谢谢
我也尝试过parquetjs,但它只能读取由其自己的库创建的parquet文件。任何使用Spark或Python创建的文件都无法读取。
我没有尝试过这个库,但是parquet有一个定义好的规范。我们应该能够在JavaScript中读取从Python或Spark创建的parquet文件。
其他选择:
下面的代码片段使用DuckDB直接从磁盘读取parquet数据。
var duckdb = require('duckdb');
var db = new duckdb.Database(':memory:');
db.all("SELECT * FROM READ_PARQUET('D:\\sample\\userdata1.parquet') WHERE Country='Canada' LIMIT 3", function(err, res) {
if (err) {
throw err;
}
console.log(res)
});
DuckDB围绕parquet构建了许多功能。
文档: