NodeJS(JavaScript/TypeScript)- 读取 Parquet 文件时出现错误

3

我正在尝试使用Node.js读取Parquet文件:

var parquet = require('parquetjs');

(
    async () => {
    try {
            // create new ParquetReader that reads from 'fruits.parquet`
      let reader = await parquet.ParquetReader.openFile('f1.snappy.parquet');

        // create a new cursor
        let cursor = reader.getCursor();

        // read all records from the file and print them
        let record = null;
        while (record = await cursor.next()) {
            console.log(record);
        }

      } catch (e) {
        console.log('error while reading a parquet file:\n', e)
      }

    }

) ();

出现错误:

error while reading a parquet file:
 invalid page type: DICTIONARY_PAGE

同一个Parquet文件 - 我可以使用Python的PyArrow库轻松读取,可能的原因是什么呢?


我有同样的问题。 - t-my
有人找到了解决这个问题的方法吗? - Justin Herter
我也遇到了相同的问题。你有找到解决方法吗?@user9750148 - markus_springer
1个回答

3

我之前遇到了同样的问题(以及读取嵌套对象时的其他问题),使用parquetjs时出现问题。

我转换成了https://www.npmjs.com/package/parquetjs-lite,现在一切都很顺利。

parquetjs-lite是parquetjs的一个分支,因此我不需要更改任何代码。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接