首页 > 后端开发 > 正文

如何用Python写spark

2024-01-05 22:25:13 | 我爱编程网

如何用Python写spark很多朋友对这方面很关心，我爱编程网整理了相关文章，供大家参考，一起来看一下吧！

本文目录一览：

1、如何用Python写spark
2、最新的spark支持python的什么版本
3、spark python脚本怎么执行

如何用Python写spark

1.RDD是PariRDD类型

def add1(line):

return line[0] + line[1]

def add2(x1,x2):

return x1 + x2

sc = SparkContext(appName="gridAnalyse")

rdd = sc.parallelize([1,2,3])

list1 = rdd.map(lambda line: (line,1)).map(lambda (x1,x2) : x1 + x2).collect() #只有一个参数，通过匹配来直接获取(赋值给里面对应位置的变量)

list1 = rdd.map(lambda line: (line,1)).map(lambda x1,x2 : x1 + x2).collect() #错误，相当于函数有两个参数

list2 = rdd.map(lambda line: (line,1)).map(lambda line : line[0] + line[1]).collect() #只有一个参数，参数是Tuple或List数据类型，再从集合的对应位置取出数据

list3 = rdd.map(lambda line: (line,1)).map(add1).collect() #传递函数，将Tuple或List类型数据传给形参

list4 = rdd.map(lambda line: (line,1)).map(add2).collect() #错误，因为输入只有一个，却有两个形参

当RDD是PairRDD时，map中可以写lambda表达式和传入一个函数。

a、写lambda表达式：

可以通过(x1,x2,x3)来匹配获取值;或者使用line获取集合，然后从集合中获取。

b、传入函数

根据spark具体的transaction OR action 操作来确定自定义函数参数的个数，此例子中只有一个参数，从形参(集合类型)中获取相应位置的数据。

最新的spark支持python的什么版本

两种方法：

使用 spark-submit 解释执行python脚本

使用 python 解释执行python脚本

1. 使用Spark-submit解释执行python脚本

python脚本中需要在开头导入spark相关模块，调用时使用spark-submit提交，示例代码如下：

===========================================================

"""odflow.py"""

from pyspark import SparkContext

fileDir = "/TripChain3_Demo.txt"

# sc = SparkContext("local", "ODFlow")

sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow")

lines = sc.textFile(fileDir)

# python不能直接写多行的lambda表达式，所以要封装在函数中

def toKV(line):

arr = line.split(",")

t = arr[5].split(" ")[1].split(":")

return (t[0]+t[1]+","+arr[11]+","+arr[18],1)

r1 = lines.map( lambda line : toKV(line) ).reduceByKey(lambda a,b: a+b)

# 排序并且存入一个(repartition)文件中我爱编程网

r1.sortByKey(False).saveAsTextFile("/pythontest/output")

===========================================================

发布命令为：

spark-submit \

--master spark://ITS-Hadoop10:7077 \

odflow.py

2. 使用 python 解释执行python脚本

直接用python执行会出现错误:

ImportError: No module named pyspark

ImportError: No module named py4j.java_gateway

缺少pyspark和py4j这两个模块，这两个包在Spark的安装目录里，需要在环境变量里定义PYTHONPATH，编辑~/.bashrc或者/etc/profile文件均可

vi ~/.bashrc # 或者 sudo vi /etc/profile

# 添加下面这一行

export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH

# 使其生效

source ~/.bashrc # 或者 sudo source /etc/profile

然后关闭终端，重新打开，用python执行即可

python odflow.py

spark python脚本怎么执行

前段时间使用了一下google的博客空间，感觉也很一般，所以现在把那里的几篇文章转过来。

执行python脚本只需要对python文件做如下操作即可：

在python文件里第一行加上#! /usr/bin/python，即你的python解释器所在的目录。另外还有一种写法是#! /usr/bin/env python

编辑完成python脚本文件后为它加上可执行权限。例如你的python脚本文件叫做runit.py，那么就在shell中输入如下命令：chmod +x runit.py

之后直接在shell中输入./runit.py就可以执行你的python程序了。

当然这是在Linux下的操作，如果想在windows下直接执行Python程序，就需要使用py2exe工具将python源程序编译成exe文件了。

以上就是我爱编程网为大家带来的如何用Python写spark，希望能帮助到大家！

免责声明：文章内容来自网络，如有侵权请及时联系删除。

与“如何用Python写spark”相关推荐

栏目推荐

热点图文

python语言用什么软件方便一点，怎么安装扩展包？
2024-01-01 09:58:48
linux执行java代码怎么指定参数
2024-04-13 00:38:12
已安装Java但无法运行特定Java应用程序怎么办
2024-03-31 15:14:06
如何安装java运行环境
2024-03-21 00:22:13
python中%代表什么意思？
2024-02-10 22:15:59
如何在Python编程学习中避免常见的错误和陷阱？
2023-12-26 22:10:45