43得票2回答
快速的Hadoop分析(Cloudera Impala vs Spark/Shark vs Apache Drill)

我希望你能为我翻译一下这段话。需要进行“准实时”的数据分析(类似于OLAP),使用HDFS中的数据。我的研究表明,相比Apache Hive,这三个提到的框架都有显著的性能提升。是否有人对其中任意一个框架有实际经验?不仅涉及性能,还包括稳定性方面的考虑。

18得票3回答
将JSON对象文件转换为Parquet文件

动机: 我想将数据加载到Apache Drill中。我知道Drill可以处理JSON输入,但是我想看看它在Parquet数据上的性能表现。 是否有任何方法可以在不先将数据加载到Hive等程序中,然后使用其中一个Parquet连接器生成输出文件的情况下实现这一点?

17得票8回答
Java中一个SQL查询访问多个数据源(Oracle、Excel、SQL Server)的方法

我需要开发一个应用程序,可以使用一个 SQL 查询从多个数据源(例如 Oracle、Excel、Microsoft Sql Server 等)获取数据。例如: SELECT o.employeeId, count(o.orderId) FROM employees@excel e...

16得票2回答
Apache Drill 在与 SQL Server 对比时表现不佳。

我尝试使用apache-drill来运行一个简单的连接-聚合查询,但速度并不理想。我的测试查询如下: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey GROUP BY...

16得票3回答
Apache Drill与Spark对比

我有一些Apache Spark和Spark-SQL的经验。最近我发现了Apache Drill项目。您能描述一下它们之间最重要的优点/区别吗?我已经阅读过《快速Hadoop分析(Cloudera Impala vs Spark / Shark vs Apache Drill)》,但这个话题对...

15得票1回答
如何在Apache Drill的Mongo存储插件中实现INNER JOIN(下推)的优化?

我希望扩展Apache Drill Mongo Storage Plugin以推动INNER JOIN。因此,我想将INNER JOIN重写为Mongo聚合管道。 我们需要如何开始实现Apache Drill中的重写。 以下是SQL示例: SELECT * FROM `mymongo.d...

9得票1回答
不依赖于Hadoop和HDFS,使用Java读写Parquet文件是否可行?

我一直在寻找解决这个问题的方法。 在我看来,没有办法在Java程序中嵌入读写Parquet格式而不引入HDFS和Hadoop的依赖关系。这是正确的吗? 我想在客户端机器上读写文件,而不是在Hadoop集群外。 我开始对Apache Drill感到兴奋,但它似乎必须作为单独的进程运行。我需...

8得票6回答
将Drill查询结果输出到csv(或其他格式)文件

我正在使用嵌入式模式下的Drill,但我不知道如何保存查询输出,除了复制和粘贴。

8得票3回答
如何使用Apache Drill与Cassandra?

我正在尝试使用Apache Drill查询Cassandra。我能找到的唯一连接器在这里:http://www.confusedcoders.com/bigdata/apache-drill/sql-on-cassandra-querying-cassandra-via-apache-dril...

7得票4回答
Apache Drill - 连接到嵌入式模式下的Drill [java]

我想通过Java应用程序连接到Drill,目前我正在尝试使用JDBC来实现,并使用https://github.com/vicenteg/DrillJDBCExample的示例。但是,当我将DB_URL静态变量更改为"jdbc:drill:zk=local"并启动应用程序时,会出现异常: ...