如何为Apache Drill编写自定义存储插件

4

我的数据是用专有格式存储的,但Apache Drill并不支持该格式。请问有没有关于如何编写自己的存储插件来处理此类数据的教程?


1
这是某种RDBMS吗? 如果是,您可以定义您的插件。 如果不是,则必须为该插件编写代码。 - Dev
尽管它不是关系型数据库,但我们确实有工具支持在该数据集之上使用类似SQL的语言。 - sushil
1个回答

12

这是一些应该在文档中提到但目前还没有的内容。界面并不太复杂,但查看现有插件并理解所有正在进行的操作可能会有些困难。

编写存储插件有两个主要组件,将信息公开给查询规划器和模式管理系统,然后实际上实现从数据源API到钻探记录表示的转换。

Kudu插件是最近添加的,并且是一个具有许多Drill可以利用的元素的存储系统的合理模型。我想指出的一件事是,如果您的存储系统不是分布式的,并且您只计划进行所有远程读取,则在组扫描中不必做太多关于亲和力/工作列表/分配的工作。如果我有时间,我将尝试撰写有关接口不同部分的文档,并可能编写有关现有插件之一的教程。

https://github.com/apache/drill/tree/master/contrib/storage-kudu/src/main/java/org/apache/drill/exec/store/kudu


这正是我在寻找的确切信息。我已经查看了Hive存储插件,发现它太复杂了。 我有一个后续问题。实际编写一个插件/模块来执行最终工作节点上的实际查询执行需要多少工作量?我的意思是,我想要获取Drill的执行计划并执行它,而不仅仅是读取和提供记录。 - sushil
@jaltekruse,我也想构建一个存储插件,并希望有任何关于此的教程。关于文档方面是否有任何新消息? - Thomas B.
2
你有时间写教程了吗? :) - Muhammad Gelbana
1
有没有机会写文档? :) - Michael L

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接