spark中使用udf执行filter_笛在月明的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

被表白的日记本 · 【python】读取excel的行列内容，p ...· 2 月前 ·

打篮球的拐杖 · df.iloc[:,:2].values ...· 2 月前 ·

好帅的乒乓球 · Pandas读取某列、某行数据——loc、i ...· 1 月前 ·

谦虚好学的火柴 · Spark ...· 3 周前 ·

近视的橙子 · python ...· 3 周前 ·

怕老婆的四季豆 · 吐血整理！MindMaster思维导图最详细 ...· 8 月前 ·

逃跑的骆驼 · 快上车！体验下一代汽车的全新驾乘方式_汽车整 ...· 1 年前 ·

深情的乌冬面 · 大家用什么看海贼王漫画的？ - 知乎· 1 年前 ·

霸气的麦片 · 小宵乙なん(小宵虎南)藝名的由來是? - 哔哩哔哩· 1 年前 ·

性感的桔子 · 汽车公司_搜索· 1 年前 ·

有时我们需要使用filter执行过滤操作，使用下面的语句则会报错：

new_user_rdd = user_rdd.filter(lambdax:begin<=datetime.strptime(x['finish_time'])<=end)

TypeError: condition should be string or Column

一个解决方法是：

from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType
from datetime import datetime
begin = datetime.strptime('2017-10-01 00:00:00', '%Y-%m-%d %H:%M:%S')
end = datetime.strptime('2017-12-31 23:59:59', '%Y-%m-%d %H:%M:%S')
new_user_rdd = new_user_rdd1.filter(udf(lambda target: begin<=datetime.strptime(target, '%Y-%m-%d %H:%M:%S')<=end, 
            BooleanType())(new_user_rdd1['finish_time']))
                    有时我们需要使用filter执行过滤操作，使用下面的语句则会报错：new_user_rdd = user_rdd.filter(lambdax:begin<=datetime.strptime(x['finish_time'])<=end)  TypeError: condition should be string or Column一个解决方法是：from pyspark.sql.funct
				Spark提供了多种解决方案来应对复杂挑战， 但是我们面临了很多场景， 原生的函数不足以解决问题。因此，Spark允许我们注册自定义函数（User-Defined Functions, 或者叫 UDFs）。
SparkSQL中可以创建自定义函数UDF对dataframe进行操作，UDF是一对一的关系，用于给dataframe增加一列数据的场景。 每次传入一行数据，该行数据可以是一列，也可以是多列，进行一顿操作后，最终只能输出该新增列的一个值。
Spark支持多种语言，比如Python, Scala, Ja
mvn clean package
将spark-hive-udf-1.0.0-SNAPSHOT.jar复制到边缘节点临时目录
spark-hive-udf]# cp target/spark-hive-udf-1.0.0-SNAPSHOT.jar /tmp
通过提供罐子来启动火花壳
spark-shell --master yarn --jars /tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar
创建名称为大写的函数并列出该函数
spark.sql("CREATE OR REPLACE FUNCTION uppercase AS 'com.ranga.spark.hive.udf.UpperCaseUDF' USING JAR '/tmp/spark-hive-udf-1.0.0-SNAPSHOT.jar'")
				import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.DoubleType
import org.apache.spark.sql.{DataFrame, SparkSession, functions}
object UDF extends App {
  def psi: ((Seq[Int], Int, Seq[Int], Int) => Double) =
在数据分析领域中，没有人能预见所有的数据运算，以至于将它们都内置好，一切准备完好，用户只需要考虑用，万事大吉。扩展性是一个平台的生存之本，一个封闭的平台如何能够拥抱变化？在对数据进行分析时，无论是算法也好，分析逻辑也罢，最好的重用单位自然还是：函数。
故而，对于一个大
				针对pyspark的dataframe可以利用aggregation进行统计计算，而默认的算子目前只有sum, avg, max, min, count, approx_distinct_count。这对于需要利用pyspark开发类似于Kibana这样的数据分析平台的开发人员来说是个头疼的问题。
好消息是，pyspark的dataframe和SQL一样，自带了UDF（User self-Def...
    return float(m)**float(n)
udf = spark.udf
udf.register('pow1',pow1,returnType=DoubleType())
df = spark.range(0,10,2,3)
df.createOrReplaceTempView('A')
print spark.sql('select pow1(id,2) fr.
```python
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType, IntegerType
2. 定义 Spark UDF
例如，如果要将 Hive UDF `my_func` 转换为 Spark UDF，可以按照以下方式定义：
```python
def my_func(param1, param2):
    # Hive UDF 逻辑
    return result
spark_my_func = udf(my_func, StringType()) # 定义 Spark UDF
其中，`my_func` 是 Hive UDF 的函数名，`param1` 和 `param2` 是输入参数，`result` 是返回值。
3. 注册 Spark UDF
```python
spark.udf.register("spark_my_func", spark_my_func)
其中，`spark_my_func` 是注册的 Spark UDF 的名称，`spark` 是 SparkSession 对象。
4. 使用 Spark UDF
可以通过 Spark SQL 或 DataFrame API 来使用注册的 Spark UDF。例如，使用 DataFrame API：
```python
from pyspark.sql.functions import col
df = spark.read.table("my_table")
df = df.withColumn("new_col", spark_my_func(col("col1"), col("col2")))
其中，`my_table` 是 Hive 表的名称，`col1` 和 `col2` 是表中的列名，`new_col` 是新生成的列名。
注意，Spark UDF 的输入和输出类型需要与 Hive UDF 的类型对应。在上面的示例中，假设 Hive UDF 的返回类型是字符串类型，因此 Spark UDF 的返回类型也是 `StringType()`。如果 Hive UDF 的返回类型是整数类型，Spark UDF 的返回类型应该是 `IntegerType()`。