Spark集群与python3小记

spark1.6.2和python3
cloudera manager安装Spark(Yarn)略

安装python3

spark python3环境 使用sudo或者直接在root登录下操作

1
2
3
4
5
6
7
8
sudo wget https://www.python.org/ftp/python/3.5.3/Python-3.5.3.tgz
sudo tar -zxvf Python-3.5.3.tgz
sudo mkdir /usr/local/python3
cd Python-3.5.3
sudo ./configure --prefix=/usr/local/python3
sudo make && sudo make install
sudo ln -s /usr/local/python3/bin/python3 /usr/bin/python3
sudo ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

查看安装是否成功

1
2
3
4
$ python3 --version
Python 3.5.3
$ pip3 --version
pip 9.0.1 from /usr/local/python3/lib/python3.5/site-packages (python 3.5)

安装使用到的python库

1
2
3
sudo pip3 install fire
sudo pip3 install openpyxl
sudo pip3 install pymysql

python文件编码问题

如果python3运行.py提示编码问题,则在文件最上面加上下面一行

1
# -*- coding: UTF-8 -*-

配置变量PYSPARK_PYTHON

可以是全局的环境变量,也可以是放在spark.env启动时设置

1
2
sudo vi /etc/profile
export PYSPARK_PYTHON=python3

注意用户,将python文件所在目录的所有者设为hadoop用户
-R: 处理指定目录以及其子目录下的所有文件

1
sudo chown -R hadoop spark_work/

local模式

1
spark-submit --master local[2] --jars /bigdata/data/spark/mysql-connector-java-5.1.41-bin.jar xx.py stat --daystr 2017-08-02

yarn模式

无需启动master和slaves

1
spark-submit --master yarn --deploy-mode client --executor-memory 2G --executor-cores 1 --driver-memory 1G --jars /bigdata/data/spark/mysql-connector-java-5.1.41-bin.jar xx.py stat --daystr 2017-08-02

standalone模式

启动spark master[zk高可用]和slaves

1
spark-submit --master spark://xx:7077,yy:7077 --executor-memory 2G --executor-cores 1 --driver-memory 1G --jars /bigdata/data/spark/mysql-connector-java-5.1.41-bin.jar xx.py stat --daystr 2017-08-02
邵志鹏 wechat
扫一扫上面的二维码关注我的公众号
0%