900字范文 > PyCharm搭建Spark开发环境windows下安装pyspark

PyCharm搭建Spark开发环境windows下安装pyspark

时间：2022-12-24 15:42:25

windows下安装pyspark

spark和hadoop版本版本之间有对应关系

安装jdk 安装hadoop

下载

hadoop-2.7.7.tar.gz

配置环境变量

不再演示

下载winutils.exe

/steveloughran/winutils

选择对应的hadoop版本下载

复制winutils.exe到安装好的hadoop的bin目录下安装spark

下载spark-2.4.6-bin-hadoop2.7.tgz

配置环境变量

安装Anaconda3.7

国内下载和安装配置

配置环境变量复制py4j和pyspark

将D:\spark-2.4.6-bin-hadoop2.7\python\lib下两个包（pyspark.zip，py4j.zip）解压缩后拷贝到D:\Anaconda\libsite-packages目录下,然后全部替换

测试打开cmd输入pyspark 输入语句

sc.parallelize(["b", "a", "c"]).collect()

PyCharm搭建Spark开发环境

上一标题是前提

在pycharm中随便建一个python文件配置

PYSPARK_PYTHON：python路径

SPARK_HOME:spark路径

测试程序

from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("myapp")sc = SparkContext(conf=conf)print(sc.parallelize([1, 2, 3]).collect())

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。