spark1.6.2和python3
cloudera manager安装Spark(Yarn)略
安装python3
spark python3环境 使用sudo或者直接在root登录下操作
1 | sudo wget https://www.python.org/ftp/python/3.5.3/Python-3.5.3.tgz |
查看安装是否成功
1 | python3 --version |
安装使用到的python库
1 | sudo pip3 install fire |
python文件编码问题
如果python3运行.py提示编码问题,则在文件最上面加上下面一行
1 | # -*- coding: UTF-8 -*- |
配置变量PYSPARK_PYTHON
可以是全局的环境变量,也可以是放在spark.env启动时设置
1 | sudo vi /etc/profile |
注意用户,将python文件所在目录的所有者设为hadoop用户
-R: 处理指定目录以及其子目录下的所有文件
1 | sudo chown -R hadoop spark_work/ |
local模式
1 | spark-submit --master local[2] --jars /bigdata/data/spark/mysql-connector-java-5.1.41-bin.jar xx.py stat --daystr 2017-08-02 |
yarn模式
无需启动master和slaves
1 | spark-submit --master yarn --deploy-mode client --executor-memory 2G --executor-cores 1 --driver-memory 1G --jars /bigdata/data/spark/mysql-connector-java-5.1.41-bin.jar xx.py stat --daystr 2017-08-02 |
standalone模式
启动spark master[zk高可用]和slaves
1 | spark-submit --master spark://xx:7077,yy:7077 --executor-memory 2G --executor-cores 1 --driver-memory 1G --jars /bigdata/data/spark/mysql-connector-java-5.1.41-bin.jar xx.py stat --daystr 2017-08-02 |