深入理解XGBoost：分布式实现

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

行走的扁豆 · 明星换脸下海不是梦 - 百度· 3 月前 ·

坚强的葫芦 · 向海而生，逐梦深蓝！大鹏新区举办中国航海日纪 ...· 1 年前 ·

高兴的烈酒 · 派克特（pact）说唱水平到底怎么样？ - 知乎· 1 年前 ·

伤情的野马 · 中国汽车工业协会2023年4月信息发布会在北京召开· 1 年前 ·

任性的山羊 · 2023年7月一汽丰田bZ4X销量,一汽丰田 ...· 1 年前 ·

腾讯云

备案控制台

开发者社区

TVP

文章/答案/技术大牛

写文章

专栏首页 Coggle数据科学深入理解XGBoost：分布式实现

3 0

分享

<dependency>
  <groupId>ml.dmlc</groupId>
  <artifactId>xgboost4j-spark</artifactId>
  <version>0.7</version>
</dependency>

1.val df = spark.read.json("data.json")  
2.//调用 XGBoost API 训练DataFrame类型的训练集
3.val xgboostModel = XGBoost.trainWithDataFrame(  
4.      df, paramMap, numRound, nWorkers, useExternalMemory)

1.val xgbClassifier = new XGBoostClassifier(paramMap).  
2.                    setFeaturesCol("features").  
3.                    setLabelCol("label")  
4.val xgbClassificationModel = xgbClassifier.fit(df)

1.val paramMap = Map(  
2.    "eta" -> 0.1f,   
3.    "num_class" -> 3,   
4.    "max_depth" -> 3,   
5.    "objective" -> "multi:softmax")

xgboostModel.saveModelAsHadoopFile("/tmp/bst.model")

xgboostModel.write.overwrite().save("/tmp/bst.model")

val model = XGBoost.loadModelFromHadoopFile("/tmp/bst.model")

val model = XGBoostClassificationModel.load("/tmp/bst.model")

val model = XGBoostRegressionModel.load("/tmp/bst.model")

val predicts = model.predict(test)

val predicts = model.transform(test)

1.val indexer = new StringIndexer()  
2.              .setInputCol("category")  
3.              .setOutputCol("categoryIndex")  
5.val indexed = indexer.fit(df).transform(df)

1.val indexer = new StringIndexer()  
2.              .setInputCol("category")  
3.              .setOutputCol("categoryIndex")  
4.             .fit(df)  
5.val indexed = indexer.transform(df)  
7.val encoder = new OneHotEncoder()  
8.             .setInputCol("categoryIndex")  
9.             .setOutputCol("categoryVec")  
11.val encoded = encoder.transform(indexed)

1.val normalizer = new Normalizer()  
2.                .setInputCol("features")  
3.                .setOutputCol("normFeatures")  
4.                .setP(1.0)  
6.val l1NormData = normalizer.transform(dataFrame)

1.val scaler = new StandardScaler()  
2.            .setInputCol("features")  
3.            .setOutputCol("scaledFeatures")  
4.            .setWithStd(true)  
5.            .setWithMean(false)  
7.// 通过拟合StandardScaler计算汇总统计信息
8.val scalerModel = scaler.fit(dataFrame)  
10.// 标准化特征 
11.val scaledData = scalerModel.transform(dataFrame)

1.val scaler = new MinMaxScaler()  
2.            .setInputCol("features")  
3.            .setOutputCol("scaledFeatures")  
5.// 计算统计信息，生成MinMaxScalerModel
6.val scalerModel = scaler.fit(dataFrame)  
8.// 重新缩放每个特征至[min, max]范围
9.val scaledData = scalerModel.transform(dataFrame)

1.val df = spark.createDataFrame(  
2.  Seq((0, 1.0, 3.0), (2, 2.0, 5.0))).toDF("id", "v1", "v2")  
4.val sqlTrans = new SQLTransformer().setStatement(  
5.  "SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")  
7.sqlTrans.transform(df)

1.val assembler = new VectorAssembler()  
2.               .setInputCols(Array("hour", "mobile", "userFeatures"))  
3.               .setOutputCol("features")  
5.val output = assembler.transform(dataset)

1.import ml.dmlc.xgboost4j.scala.spark.{TrackerConf, XGBoostClassificationModel, 
   XGBoostClassifier, XGBoostRegressionModel, XGBoostRegressor}  
2.import org.apache.spark.ml.feature.StringIndexer  
3.import org.apache.spark.ml.feature.VectorAssembler  
4.import org.apache.spark.sql.types.{DoubleType, StringType, StructField, 
   StructType}  
6.// 读取数据集，生成DataFrame  
7.val schema = new StructType(Array(  
8.  StructField("sepal length", DoubleType, true),  
9.  StructField("sepal width", DoubleType, true),  
10.  StructField("petal length", DoubleType, true),  
11.  StructField("petal width", DoubleType, true),  
12.  StructField("class", StringType, true)))  
13.val df = spark.read.schema(schema).csv("{HDFS PATH}/iris.txt")  
15.// 定义StringIndexer，将字符串类型列class转为数值型列label  
16.val indexer = new StringIndexer()  
17.  .setInputCol("class")  
18.  .setOutputCol("label")  
20.// 对前述定义的列进行转换，并去掉原来的classz字段  
21.val labelTransformed = indexer.fit(df).transform(df).drop("class")  
23.// 对特征进行vectorAssembler，生成features列  
24.val vectorAssembler = new VectorAssembler().  
25.  setInputCols(Array("sepal length", "sepal width", "petal length", 
     "petal width")).  
26.  setOutputCol("features")  
27.val xgbInput = vectorAssembler.transform(labelTransformed).select
   ("features", "label")  
29.// 定义训练参数  
30.val paramMap = Map(  
31.    "eta" -> 0.1f,   
32.    "num_class" -> 3,   
33.    "max_depth" -> 3,   
34.    "objective" -> "multi:softmax",  
35.    "num_round" -> 10,  
36.    "num_workers" -> 1)  
38.// 训练模型  
39.val xgbClassifier = new XGBoostClassifier(paramMap).setFeaturesCol("features").
   setLabelCol("label")  
40.val xgbClassificationModel = xgbClassifier.fit(xgbInput)

1.import ml.dmlc.xgboost4j.scala.spark.{TrackerConf, XGBoostClassificationModel, 
   XGBoostClassifier, XGBoostRegressionModel, XGBoostRegressor}   
2.import ml.dmlc.xgboost4j.scala.spark.XGBoostEstimator  
3.import org.apache.spark.ml.feature.StringIndexer  
4.import org.apache.spark.ml.feature.VectorAssembler  
5.import org.apache.spark.sql.types.{DoubleType, StringType, StructField, 
   StructType}  
6.import org.apache.spark.ml.Pipeline  
8.// 读取数据集，生成DataFrame  
9.val schema = new StructType(Array(  
10.  StructField("sepal length", DoubleType, true),  
11.  StructField("sepal width", DoubleType, true),  
12.  StructField("petal length", DoubleType, true),  
13.  StructField("petal width", DoubleType, true),  
14.  StructField("class", StringType, true)))  
15.val df = spark.read.schema(schema).csv("{HDFS PATH}/iris.txt")  
17.// 定义StringIndexer，将字符串类型列class转为数值型列label  
18.val indexer = new StringIndexer().  
19.   setInputCol("class").  
20.   setOutputCol("label")  
22.// 对特征进行vectorAssembler，生成features列  
23.val vectorAssembler = new VectorAssembler().  
24.  setInputCols(Array("sepal length", "sepal width", "petal length", 
     "petal width")).  
25.  setOutputCol("features")  
27.// 定义训练参数  
28.val paramMap = Map(  
29.    "eta" -> 0.1f,   
30.    "num_class" -> 3,   
31.    "max_depth" -> 3,   
32.    "objective" -> "multi:softmax",  
33.    "num_round" -> 10,  
34.    "num_workers" -> 1)  
36.// 定义模型  
37.val xgbClassifier = new XGBoostClassifier(paramMap).
      setFeaturesCol("features").setLabelCol("label")  
39.// 构建pipeline           
40.val pipeline = new Pipeline().setStages(Array(indexer, vectorAssembler, 
   xgbClassifier))  
41.val model = pipeline.fit(df)  
43.// 预测  
44.val predict = model.transform(df)

1.import org.apache.spark.ml.tuning.ParamGridBuilder  
2.import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator  
3.import org.apache.spark.ml.tuning.TrainValidationSplit  
5.// 创建xgbClassifier      
6.val xgbClassifier = new XGBoostClassifier(paramMap).
      setFeaturesCol("features").setLabelCol("label")   
8.// 设定参数调优时参数的范围    
9.val paramGrid = new ParamGridBuilder().    
10.       addGrid(xgbEstimator.maxDepth, Array(5, 6)).    
11.       addGrid(xgbEstimator.eta, Array(0.1, 0.4)).   
12.       build()    
14.// 构建TrainValidationSplit，设置trainRatio=0.8，即80%的数据用于训练，20%的数据用于测试    
15.val tv = new TrainValidationSplit().    
16.       setEstimator(xgbEstimator).    
17.       setEvaluator(new MulticlassClassificationEvaluator().
                       setLabelCol("label")).    
18.       setEstimatorParamMaps(paramGrid).

Coggle数据科学

深入理解XGBoost：分布式实现

深入理解XGBoost：分布式实现

写在前面

XGBoost简单回顾

分布式XGBoost

1. 基于Spark平台的实现

1.1 Spark架构

1.2 RDD

1.3 XGBoost4J-Spark

特征提取、变换和选择

XGBoost模型训练

Pipelines

模型选择