使用apt-get在Ubuntu上安装Apache Spark

6
我需要在一台机器上安装Spark并以独立模式运行,希望能找到通过apt-get直接安装的简单方法。
我发现可以通过pip 这里 安装pyspark。
我找不到任何一条命令可以安装spark。
安装pyspark是否会安装所有的spark软件?
我找到了这里的安装说明,它更加复杂。
是否有一种类似于通过apt-get一条命令安装Spark的方式?
编辑:
我找到了这篇文章,解释了如何使用apt-get安装Spark,并出现了以下错误。
E: 无法找到spark-core软件包 E: 无法找到spark-master软件包 E: 无法找到spark-worker软件包 E: 无法找到spark-history-server软件包 E: 无法找到spark-python软件包
谢谢

请查看此链接 http://blog.prabeeshk.com/blog/2014/10/31/install-apache-spark-on-ubuntu-14-dot-04/ - Víctor López
谢谢 @VíctorLópez,但这不是通过apt-get安装的,并且没有解释pyspark是否可以替代spark? - thebeancounter
请问您能否发布 sudo apt-get install spark 命令的输出结果?我在我的 Linux Mint(基于 Ubuntu)上执行了该命令,没有出现任何问题。 - kchomski
@kchomski 请查看编辑 - thebeancounter
@kchomski sudo apt-get install spark 将安装基于Ada编程语言的“SPARK编程语言工具集”(请参见https://packages.ubuntu.com/artful/devel/spark)。这不是(!)“Apache Spark”。 - asmaier
1个回答

3
在安装pyspark之前,您必须安装Java8。具体安装说明请参考以下链接: 如需在Ubuntu上自动安装Java8,请执行以下操作:
$ apt-get update
$ apt-get -y install software-properties-common
$ add-apt-repository -y ppa:webupd8team/java
$ echo debconf shared/accepted-oracle-license-v1-1 select true | debconf-set-selections
$ echo debconf shared/accepted-oracle-license-v1-1 seen true | debconf-set-selections
$ apt-get update
$ apt-get -y install oracle-java8-installer

(见https://newfivefour.com/docker-java8-auto-install.html
之后,您只需运行pip install pyspark即可。

请问您能否解释一下如何通过终端下载完整的Spark?我指的是这个链接:https://spark.apache.org/downloads.html - thebeancounter
如果你使用pip install pyspark,那么你不需要下载Spark。 - asmaier
1
你不能使用Pyspark获得Spark的全部功能,例如,你无法在自己的机器上启动一个Master或Slave,你只能使用已经在另一台机器上设置好的现有Spark集群。 - thebeancounter
1
我能够使用 import pyspark; sc=pyspark.SparkContext() 来使用 PySpark。这将默认使用主URL local[*]。(请参见 https://spark.apache.org/docs/latest/submitting-applications.html#master-urls)。我不需要设置一个 Spark 集群来实现这一点。 - asmaier
1
如果您仍然希望通过终端下载完整的 Spark,请执行以下命令:curl -LJO "https://www.apache.org/dyn/mirrors/mirrors.cgi?action=download&filename=spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz" - asmaier

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接