目录
windows下安装pysparkPyCharm搭建Spark开发环境windows下安装pyspark
安装jdk 安装hadoopspark和hadoop版本版本之间有对应关系
下载
hadoop-2.7.7.tar.gz
配置环境变量
不再演示
下载winutils.exe
/steveloughran/winutils
选择对应的hadoop版本下载
复制winutils.exe到安装好的hadoop的bin目录下 安装spark
下载spark-2.4.6-bin-hadoop2.7.tgz
配置环境变量
安装Anaconda3.7
国内下载和安装配置
配置环境变量复制py4j和pyspark
将D:\spark-2.4.6-bin-hadoop2.7\python\lib下两个包(pyspark.zip,py4j.zip)解压缩后拷贝到D:\Anaconda\libsite-packages目录下,然后全部替换
测试 打开cmd输入pyspark 输入语句
sc.parallelize(["b", "a", "c"]).collect()
PyCharm搭建Spark开发环境
上一标题是前提
在pycharm中随便建一个python文件配置
PYSPARK_PYTHON:python路径
SPARK_HOME:spark路径
测试程序
from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("myapp")sc = SparkContext(conf=conf)print(sc.parallelize([1, 2, 3]).collect())