文章中,我将讨论一些大技巧提高你结构数据二元分类模型性能菲律宾凯时国际官网开户从卡格格勒顶级数据竞赛的解决方案中获取这些技巧少延时,开始吧
5场比赛由我制作
处理大数据集
机器学习竞赛中你可能面临的一个问题是数据集大小AG凯时手机版如果数据大小大3GB+kagle内核和更多基础笔记本电脑使用有限资源时会发现难以加载处理链接到部分文章内核,
- 快速化数据加熊猫
- 数据压缩技巧将数据规模减少70%.
- 优化存储器引导某些属性的大小
- 使用开源库等Dask阅读并操作数据执行并行计算并保存存储空间
- 使用cudf.
- 转换数据解析器格式化
- 转换数据羽毛类格式化
- 减少内存用法优化内存.
数据探索
数据探索总能帮助更好地了解数据并从中获取洞见开发机器学习模型前,顶级竞争者总是读/做数据探索分析这有助于特征工程和数据清理
数据编译
数据探索后,第一件事就是使用这些洞察力准备数据解决类不平衡问题,编码绝对数据等让我们看看使用方法
- 方法tkle类不平衡.
- 数据扩充合成稀疏采样技术.
- 快速置置shluffle增强.
- 查找合成样本数据集
- 信号去噪信号处理竞赛使用
- 查找模式缺失数据.
- 方法处理缺失数据.
- 概述各种编码技术绝对数据
- 楼里模型预测缺失值
- 随机性数据打乱创建新的合成训练集
特征工程
下一步,你可以检查最受欢迎特征和特征工程技巧 用于这些顶级卡格格格比赛特征工程部分因问题而异视域而定
- 目标编码交叉验证求更好的编码
- 实体嵌入句柄分类.
- 编码cycli特征深入学习
- 手动操作特征工程方法.
- 自动化特征工程技术使用特征工具.
- 顶级硬手势特征微软恶意检测.
- 代诺音NN特征提取.
- 特征工程RAPIDS框架使用
- 事物记住处理f食用LGBM
- 带特征移动平均数
- 主组件分析维度消减
- LDA软件维度下降.
- 最佳手工编译LGBM特征微软恶意检测.
- 生成中频率特征
- 下拉变量带不同的火车测试分布
- 聚合时间序列特征家庭信用竞赛
- 时间序列家庭信用默认风险使用特征
- 尺度化、标准化和n或与klearn混合.
- 人工制作特征缺省风险竞赛
- 手工制作桑坦德事务预测使用特征
特征选择
从数据生成多特征后,你需要决定模型使用的所有特征从模型获取最大性能步骤中还包括识别每个特征对模型的冲击取点最受欢迎特征选择法
建模
手写和选择特征后,你应选择正确的机器学习算法作出预测收集部分最常用ML模型以应对结构化数据分类挑战
- 随机森林分类器
- XGBoost :梯度推举决策树
- LightGBM分布式快速训练
- Catboost处理绝对数据
- 传奇贝叶斯分类器
- 高斯天真刺模型化
- LGBM+CNN模型桑坦德客户事务预测
- 知识蒸馏i神经网络
- 跟踪正规化头方法论
- 比较对象LGB推送方法gos,gbdt和dart
- NN+焦点损耗实验
- 开尔斯NN时间序列拆分
- 第五位NN代码架构桑坦德事务预测
Hyperparameter tuning
- LGBM超参数调优方法论
- 自动化模型调优方法论
- 参数调适超图.
- 贝叶斯优化超参数调优
- Gpyopt超参数优化.
并读
评价
选择合适的验证策略非常重要,以避免在私有测试集中产生巨大的振荡或模型性能差
80:20传统拆分对很多案例无效交叉验证大都比传统单轨验证拆分估计模型性能有效
kFold交叉验证有各种变式,如组k倍,应相应选择
- K倍交叉校验.
- 过期kFold交叉校验.
- groupKFold
- 逆向验证检查火车测试分布相近或无关
- 时间序列拆分验证
- 广度时序分解器
注释 :
有各种度量来评价表格模型的性能堆实用分类度量表列并在此解释.
其它训练技巧
集合式
身处竞技环境 无法不编队爬上头板选择适当的编译/打包方法对从模型中获取最大性能非常重要
显示卡格列比赛使用的一些广受欢迎的编译技巧
终极思想
文章中,你看到许多常用有效方法提高表格数据二分法模型性能ijjjjjjjjjjjjjjjjj