数据建模及模型优化大赛辅导实战
数据建模及模型优化大赛辅导实战详细内容
数据建模及模型优化大赛辅导实战
大数据建模大赛辅导实战
【课程目标】
本课程主要面向专业人士的大数据建模竞赛辅导需求(假定学员已经完成Python建模及优化--回归篇/分类篇的学习)。
通过本课程的学习,达到如下目的:
熟悉大赛常用集成模型
掌握模型优化常用措施,掌握超参优化策略
掌握特征工程处理,以及对模型质量的影响
掌握建模工程管道类(Pipeline, ColumnTransformer)的使用
【授课时间】
2-3天时间,大致内容安排(会根据需求和学员水平调整进度)
时间
主题
具体内容
目的
第一天
上午
建模流程
建模步骤
模型评估指标
模型基本原理
常用建模步骤,构建通用common模型,完成模型训练、评估等的封装
第一天
下午
数据清洗
数据清洗
缺失值填充
理解异常数据对模型的影响
缺失值常用的填充方式(固定值、分类填充、拉格朗日、预测填充)
不同填充对模型的影响
第二天
上午
特征选择
特征选择模式
(Filter/Wrapper/Embedded)
特征选择的封装实现
优缺点及应用场景
(SelectKBest,REF,SelectFromModel)
第二天
下午
变量降维
因子分析
主成份分析
管道实现
变量降维PCA/FA
掌握管道处理技能 (Pipeline, FeatureUnion, ColumnsTransformer等)
第三天
上午
变量变换
变量派生
变量标准化
模型集成思想
利用探索性分析,指导变量派生
不同标准化对模型的影响
特征处理的不同顺序对模型效果的影响
第三天下午
超参优化
超参优化方法
欠拟合优化
过拟合优化
其它优化(性能、样本均衡处理)
不同超参的作用(欠拟合/过拟合)
超参优化方法
超参优化策略
Stacking集成
【授课对象】
参加大数据建模大赛的IT专业人士。
要求精通Python语言,熟悉sklearn库的基本使用等。
【授课方式】
理论框架 + 落地措施 + 实战训练
【课程大纲】
常用集成模型
问题:数据建模的基本步骤是什么?每一步要重点考虑哪些知识和技能?
数据建模六步法
选择模型:基于业务选择恰当的数据模型
特征工程:选择对目标变量有显著影响的属性来建模
训练模型:采用合适的算法,寻找到最合适的模型参数
评估模型:进行评估模型的质量,判断模型是否可用
优化模型:如果评估结果不理想,则需要对模型进行优化
应用模型:如果评估结果满足要求,则可应用模型于业务场景
模型集成思想
Bagging
Boosting
Stacking
竞赛常用的集成模型
RandomForest
Adaboosting/GBDT/XGBoost
各模型的原理及适用场景
数据清洗技巧
数据清洗处理
重复值
错误值
离群值
缺失值
缺失值填充的常见方式
固定值填充
同类别均值填充
相邻值填充(向下/向上填充)
两点插值(相邻值均值填充)
拉格朗日插值
预测方法填充
不同填充方式对模型效果的影响
案例:泰坦尼克号沉船幸存者预测
特征选择模式
降维的两大方式:特征选择与因子合并
特征选择的三种模式
基于变量本身的重要性筛选
缺失值所占比例过大
标准差/变异系数过小(VarianceThreshold)
类别值比值失衡严重
类别值与样本量比例过大
Filter式(特征选择与模型分离)
常用评估指标(相关系数/显著性/互信息等)
f_regression, f_classif, chi2,
mutual_info_regression, mutual_info_classif
案例:运营商流失预测的特征选择
Wrapper式(利用模型结果进行特征选择)
Sklearn实现(RFE/RFECV-Recursive Feature Elimination)
Embedded式(模型自带特征选择功能)
L1正则项(Lasso/ElasticNet)
信息增益(决策树)
Sklearn实现(SelectFromModel)
不同模式的优缺点及应用场景
特征选择的变量个数
特征合并方法
特征合并与特征选择
因子分析(FactorAnalysis)
FA原理及思想
载荷矩阵相关概念(变量共同度/方差贡献率)
如何确定降维的因子个数
主成份分析(Principal Component Analysis)
PCA原理
PCA的几何意义
案例:汽车油效预测
变量变换影响
为何需要变换变换
假设条件需求,可比性需要,同权重需要
因变量变换对模型质量的影响
案例:波士顿房价预测
特征标准化
标准化的作用: 缩小,消除/统一量纲
常用标准化方法:MinMaxScaler, StandardScaler,…
不同模型对标准化的要求
不同标准化对模型的影响
案例:医院肿瘤预测
其它变换:正态化、正则化
变量派生:多项式等
案例:用户收入预测
管道实现,简化代码
管道类Pipeline
列转换类ColumnTransformer
特征合并类FeatureUnion
XGBoost模型详解及优化
基本参数配置
框架基本参数: n_estimators, objective
性能相关参数: learning_rate
模型复杂度参数:max_depth,min_child_weight,gamma
生长策略参数: grow_policy, tree_method, max_bin
随机性参数:subsample,colsample_bytree
正则项参数:reg_alpha,reg_lambda
样本不均衡参数: scale_pos_weight
早期停止与基类个数优化(n_estimators、early_stopping_rounds)
样本不平衡处理
欠抽样与过抽样
scale_pos_weight= neg_num/pos_num
XGBoost模型欠拟合优化措施
增维,派生新特征
非线性检验
相互作用检验
降噪,剔除噪声数据
剔除不显著影响因素
剔除预测离群值(仅回归)
多重共线性检验(仅回归)
变量变换
自变量标准化
残差项检验与因变量变换
增加树的深度与复杂度
增大max_depth
减小min_child_weight, gamma等
禁止正则项生效
特征重要性评估与自动特征选择
超参优化策略:
分组调参:参数分组分别调优
分层调参:先粗调再细调
XGBoost模型过拟合优化措施
降维,减少特征数量
限制树的深度和复杂度
减小max_depth
增大min_child_weight,gamma等
采用dart模型来控制过拟合(引入dropout技术)
启用正则项惩罚:reg_alpha,reg_lambda等
启用随机采样:subsample,colsample_bytree等
Stacking模式:XGBoost+LR、XGBoost+RF等
XGBoost的优化模型:LightGBM
实战训练篇
互联网广告判断模型
客户流失预测模型
直销响应模型
结束:课程总结与问题答疑。
傅一航老师的其它课程
数据分析方法及生产运营实际应用 06.20
数据分析方法及生产运营实际应用【课程目标】本课程主要介绍数据分析在生产运营过程中的应用,适用于制造行业/保险行业的数据分析人员等。本课程的主要目的是,帮助学员了解大数据的本质,培养学员的数据意识和数据思维,掌握常用的统计分析方法和工具,以及生产、运营过程中的应用,并以概率的方式来进行决策,提升学员的数据分析及应用能力。本课程具体内容包括:数据决策逻辑,数据决
讲师:傅一航详情
大数据时代下的精准营销(1天) 06.20
大数据时代的精准营销【课程目标】本课程从实际的市场营销问题出发,了解大数据在市场营销领域的价值以及应用。并对大数据分析与挖掘技术进行了介绍,通过从大量的市场营销数据中分析潜在的客户特征,挖掘客户行为特点,实现精准营销,帮助市场营销团队深入理解业务运作,支持业务策略制定以及营销决策。通过本课程的学习,达到如下目的:了解大数据营销内容,掌握大数据在营销中的应用。
讲师:傅一航详情
大数据时代下的精准营销(1天-金融行业) 06.20
大数据时代的精准营销【课程目标】本课程从实际的市场营销问题出发,了解大数据在市场营销领域的价值以及应用。并对大数据分析与挖掘技术进行了介绍,通过从大量的市场营销数据中分析潜在的客户特征,挖掘客户行为特点,实现精准营销,帮助市场营销团队深入理解业务运作,支持业务策略制定以及营销决策。通过本课程的学习,达到如下目的:了解大数据营销内容,掌握大数据在营销中的应用。
讲师:傅一航详情
大数据思维与商业模式创新,赋能企业增长 06.20
大数据决策思维与商业模式创新,赋能企业增长【课程目标】本课程主要帮助大家理解大数据的基本概念,着重探索大数据的本质,理解大数据的核心价值,以及掌握实现大数据价值的三个关键环节,大数据解决业务问题的六个步骤,然后聚焦大数据的七大核心思维,最后,再用案例说明了大数据在各行业的应用场景。大数据思维,让决策更科学!让管理更高效!让营销更精准!通过本课程的学习,达到如
讲师:傅一航详情
大数据思维与数字化转型(2天) 06.20
大数据思维与应用创新【课程目标】本课程主要帮助大家理解大数据的基本概念,着重探索大数据的本质,理解大数据的核心价值,以及掌握实现大数据价值的三个关键环节,大数据解决业务问题的六个步骤,然后聚焦大数据的七大核心思维,最后,再用案例说明了大数据在各行业的应用场景。大数据思维,让决策更科学!让管理更高效!让营销更精准!通过本课程的学习,达到如下目的:了解大数据基本
讲师:傅一航详情
大数据思维与应用创新(1天) 06.20
大数据思维与应用创新【课程目标】本课程主要帮助大家理解大数据的基本概念,着重探索大数据的本质,理解大数据的核心价值,以及掌握实现大数据价值的三个关键环节,大数据解决业务问题的六个步骤,然后聚焦大数据的七大核心思维,最后,再用案例说明了大数据在各行业的应用场景。大数据思维,让决策更科学!让管理更高效!让营销更精准!通过本课程的学习,达到如下目的:了解大数据基本
讲师:傅一航详情
大数据思维与应用创新(1天-金融) 06.20
大数据思维与应用创新【课程目标】本课程主要帮助大家理解大数据的基本概念,着重探索大数据的本质,理解大数据的核心价值,以及掌握实现大数据价值的三个关键环节,大数据解决业务问题的六个步骤,然后聚焦大数据的七大核心思维,最后,再用案例说明了大数据在各行业的应用场景。大数据思维,让决策更科学!让管理更高效!让营销更精准!通过本课程的学习,达到如下目的:了解大数据基本
讲师:傅一航详情
大数据挖掘工具:SPSSStatistics入门与提高【课程目标】本课程为数据分析和挖掘的工具篇,本课程面向数据分析部等专门负责数据分析与挖掘的人士,专注大数据挖掘工具SPSSStatistics的培训。IBMSPSS工具是面向非专业人士的高级的分析工具(挖掘工具),它提供大量的分析方法和分析模型,能够解决更复杂的业务问题,比如影响因素分析、客户行为预测/精
讲师:傅一航详情
金融行业风险预测模型实战培训(2-3天) 06.20
金融行业风险预测模型实战【课程目标】本课程专注于金融行业的风控模型,面向数据分析部等专门负责数据分析与建模的人士。本课程的主要目的是,培养学员的大数据意识和大数据思维,掌握常用的数据分析方法和数据分析模型,并能够用于对客户行为作分析和预测,提升学员的数据分析综合能力。通过本课程的学习,达到如下目的:掌握数据分析和数据建模的基本过程和步骤掌握客户行为分析中常用
讲师:傅一航详情
大数据分析与挖掘综合能力提升实战(高阶) 06.20
大数据分析与挖掘综合能力提升实战【课程目标】本课程为高阶课程,面向所有业务支撑部门及数据分析部门。本课程的主要目的是,帮助学员掌握一些业务专题挖掘模型,帮助学员建立对复杂业务问题的数据挖掘综合能力。本课程具体内容包括:数据挖掘流程,数据预处理用户专题分析:用户群划分/客户价值评估/客户偏好分析/用户行为预测产品专题分析:产品设计优化、产品功能评估、产品最优定
讲师:傅一航详情
- [潘文富] 经销商终端建设的基本推进
- [潘文富] 中小企业招聘广告的内容完
- [潘文富] 优化考核方式,减少员工抵
- [潘文富] 厂家心目中的理想化经销商
- [潘文富] 经销商的产品驱动与管理驱
- [王晓楠] 辅警转正方式,定向招录成为
- [王晓楠] 西安老师招聘要求,西安各区
- [王晓楠] 西安中小学教师薪资福利待遇
- [王晓楠] 什么是备案制教师?备案制教
- [王晓楠] 2024年陕西省及西安市最
- 1社会保障基础知识(ppt) 21160
- 2安全生产事故案例分析(ppt) 20239
- 3行政专员岗位职责 19048
- 4品管部岗位职责与任职要求 16223
- 5员工守则 15461
- 6软件验收报告 15397
- 7问卷调查表(范例) 15113
- 8工资发放明细表 14555
- 9文件签收单 14195