Apache Arrow Java API 文档

22

我正在寻找Apache Arrow API 的有用文档或示例。是否有人能指向一些有用的资源?我只找到了一些博客和JAVA文档(并没有太多内容)。

从我所了解的信息来看,它是用于快速分析的内存列数据库标准。是否可能将数据加载到arrow内存中并对其进行操作?


在 Stack Overflow 上询问离线资源是不被允许的话题。 - TT.
2个回答

5
你应该使用Arrow作为两个需要使用传递对象进行通信的应用程序之间的中间人。
Arrow不是一款独立的软件,而是一个组件,用于加速特定系统内的分析,并允许启用Arrow的系统以低开销交换数据。
例如,Arrow改进了群集内数据移动的性能。
请参见示例测试
  @Test
  public void test() throws Exception {
    BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
    File testInFile = testFolder.newFile("testIn.arrow");
    File testOutFile = testFolder.newFile("testOut.arrow");

    writeInput(testInFile, allocator);

    String[] args = {"-i", testInFile.getAbsolutePath(), "-o", testOutFile.getAbsolutePath()};
    int result = new FileRoundtrip(System.out, System.err).run(args);
    assertEquals(0, result);

    validateOutput(testOutFile, allocator);
}

此外,Apache Parquet也在使用它。有从/到箭头对象的转换示例:
MessageType parquet = converter.fromArrow(allTypesArrowSchema).getParquetSchema();

Schema arrow = converter.fromParquet(supportedTypesParquetSchema).getArrowSchema();

1
链接的测试示例并不是很有信息量。BufferAllocatorRootAllocator是什么并不是显而易见的。也没有任何“操作数据”的证据... - Ramón J Romero y Vigil
Parquet的github存储库中包含的转换器似乎依赖于Arrow 0.1.0(我无法使其工作,当执行new SchemaConverter()时会出现ClassNotFoundException,尽管我在安装它时可能做错了什么,因为我找不到任何发布的parquet-arrow构件)。 - Shastick

0

他们现在在网站上提供了一些关于如何使用Apache Arrow的基础文档,尽管还需要补充完善。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接