使用Java和Apache Spark SQL直接运行SQL查询

Question

使用Java和Apache Spark SQL直接运行SQL查询

javaoraclejdbcapache-sparkapache-spark-sql

3

我正在尝试弄清如何使用Spark SQL直接执行查询。我指的是使用以下方法：

SQLContext sql = new SQLContext(ctx);
sql.sql("QUERY HERE");

但是如何为数据库设置连接信息呢？我正在使用Oracle DB。之前我使用sql.read().jdbc..的方式，传递连接URL作为参数。但是这种方式相对于在SQL控制台上直接查询（0.05秒）而言非常慢（4秒）。

问候

- R3Tech

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- T. Gawęda · Accepted Answer

也许您缺乏关于Spark SQL的概念。

它不是用于实时代理数据库的引擎。对于快速缓存，您可能希望使用数据网格，例如Oracle Coherence、Hazelcast或Apache Ignite(随机顺序)

Spark用于处理大规模数据集的快速计算。在Databricks博客中的03.10上，有一篇文章介绍了CERN使用Spark的案例 - 在数据库上运行12小时的大查询在Spark上只需2分钟！

那么，为什么您的查询很慢？ Spark SQL更类似于OLAP系统，而不是OLTP。它可以非常快速地处理海量数据集。但是必须从数据库中读取此数据，然后在Spark中进行计算。这就是为什么在您的情况下时间要长得多的原因，即加载时间+计算时间。数据库引擎可以在一步中执行读取和计算（当然，实现可能不同）。

当你拥有更多的数据时，加载时间将成为执行时间的较小百分比，处理时间将会更长。然后Spark将尽其所能。这是因为数据库引擎中的处理速度比Spark要慢得多- Spark可以更好地并行化查询。

如何调整您的查询？阅读一次，然后缓存到内存中，然后在查询中使用。对于小数据集，它仍可能较慢，但对于大数据集并且经常使用此DataFrame，则可以帮助提高性能。