我想在spark-shell和/或.scala文件中使用这个库来操作一些数据。我该怎么做?我不能使用maven。
编辑可能的重复:我也没有jar包;如果这是解决方案的一部分,我如何从该库创建一个jar包?
编辑可能的重复:我也没有jar包;如果这是解决方案的一部分,我如何从该库创建一个jar包?
你所引用的库可在Maven中央仓库中获取,spark-shell
可以自动从Maven中央仓库和其他几个受欢迎的仓库下载库,只需提供正确的Maven坐标即可,无需显式使用Maven。(实际上,它甚至允许您指定自己的额外Maven仓库并搜索这些仓库。)请参见http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell
对于你的情况,命令应该类似于
./bin/spark-shell --master local[4] --packages "dk.tbsalling:aismessages:2.2.1"
注意:您可以浏览https://spark-packages.org/查找Spark包。
--master
来显示哪个是主节点?默认情况下,不是从启动 shell 的节点就是主节点吗?还有,关于 local[4]
。我搜索了一下,发现了 https://dev59.com/Worda4cB1Zd3GeqPLmOy 。难道 local[*]
总是更合适吗?或者在这种情况下指定 4 有什么好处吗? - Dimebag--master whatever
参数并不是很重要,你应该使用你已经在使用的 :-) 这里关键的是 --packages "groupId:artifactId:versionId"
参数。 - Yawar