NodeJS Parquet写入

3
我有一堆列(大约30个)。其中包括数组、带有多行空格的文本字段(Word文档)等。由于存在多个换行符,我认为CSV不是一个合适的格式。我考虑使用Parquet格式。
文件本身需要通过NodeJS生成。
以下是需要回答的问题:
1. 是否有首选的Parquet库? 2. 此外,是否有任何建议用于BigQuery的特定文件格式?
任何指针都会很有帮助。

你能澄清一下你是在哪里存储使用 Node.js 生成的文件吗? - Shipra Sarkar
1个回答

5

Parquet在Node JS库中的维护不太好。您可以查看我在同一主题上的另一个答案,其中列出了最受欢迎的库。

  • parquetjs
  • parquets
  • parquetjs-lite
  • node-parquet

我建议您尝试下面的库。

DuckDB - DuckDB是一个嵌入式库/数据库。它围绕parquet文件构建了许多功能。

它可以将parquet文件写入磁盘,直接将其写入S3存储桶等等。

DuckDB支持的Parquet特性 - https://duckdb.org/docs/data/parquet。这是一个简单的代码片段。

var duckdb = require('duckdb');
var db = new duckdb.Database(':memory:');
db.all("COPY (SELECT 'BOB' AS NAME, 'LONDON' AS CITY) TO 'result-snappy.parquet' (FORMAT 'parquet')", function(err, res) {
  if (err) {
    throw err;
  }
  console.log(res)
});

执行脚本:

PS C:\Users\user1\Downloads> node .\duck-script.js
[ { Count: 1 } ]

enter image description here

在您的情况下,您可能需要先将数据加载到duckdb表中,然后再将其写入parquet文件。

文档


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接