文章中,我将讨论一些大技巧提高性能文本分类模型菲律宾凯时国际官网开户从Kagle顶级NLP比赛解决方案中获取这些技巧
即我经历
- Jigsaw意外毒理分类六万五
- 毒文评分挑战三万五
- Quora不自题分类-2万5千元
- GoogleQUEST+A标签-2万5千元
- TensorFlow2.0问答5万元
并发现一吨大思想
少延时,开始吧
处理大数据集
机器学习竞赛中你可能面临的一个问题是数据集大小AG凯时手机版如果数据大小大3GB+Kagle内核和更多基础笔记本电脑使用有限资源很难加载处理链接到部分文章内核,
- 优化内存缩小某些属性的大小
- 使用开源库等Dask阅读并操作数据执行并行计算并保存存储空间
- 使用cudf
- 转换数据解析器格式化
- 转换数据羽毛类格式化
小数据集和外部数据
数据集小时能做什么let's see some技术处理这种情况
提高机器学习模型性能的一个方法就是使用外部数据框架,内含影响前置变量的某些变量
取出外部数据集
- 使用班级数据回答任务
- 其余数据集QA任务
- 维基文本长期依赖语言建模数据集
- 栈交换数据
- 编译常用拼错词典并校正词典
- 使用帮助者数据集清扫
- 伪标签进程满怀预测测试数据加入培训数据
- 使用不同数据采样方法
- 文本扩充换字同义s级
- 文本扩充RNN点名
- 文本扩充翻译到其他语言并回溯
数据探索并获取洞见
数据探索总能帮助更好地了解数据并从中获取洞见开发机器学习模型前,顶级竞争者总是读/做数据探索分析这有助于特征工程和数据清理
数据清理
数据清理是NLP问题的重要和分量文本数据总需要预处理和清理才能以适当形式表示
文本表达式
文本输入需要以适当格式表示前,先输入神经网络或ML模型这些表示方式在很大程度上决定模型性能
- 预培训手套矢量
- 预培训快速文本矢量
- 预培训word2vec矢量
- 上一篇关于这些的文章3嵌入式
- 组合预培训向量.这有助于更好地表示文本并减少OOV字
- 参数类嵌入式
- 通用句编码器
- 使用使用生成句级特征
- 3方法合并嵌入
上下文嵌入模型
建模
模型架构
选择正确架构很重要,可以开发适当的机器学习模型,序列序列模型如LSTMs,GRUs在NLP问题方面表现良好并总值试2层LSTM/GRU网络常用方法
- 堆放双向cudnrsTM
- LSTM网络寄存
- LSTM5折叠注意
- 双向LSTM和1D卷积
- 解冻调嵌入
- sTM全局最大集合
- 注意力加权平均
- GRU+Capsule网络
- 感知CNN翻转
- 普通香草网络BERT
- CDNGRU网络
- TextCNN并存层
- BERT嵌入LSTM
- 多样退校
- siames变压器网络
- 全局平均集合隐藏层BERT
- 不同的Bert基础模型
- 蒸发BERT-BERT使用后勤回归性能
- 不同层次学习率
- 微调Bert文本分类
损函数
NN模型选择适当的损耗函数通过允许模型优化表面水井提高模型性能
可尝试不同的损函数或甚至写匹配问题自定义损函数部分常用损耗函数
- 二叉交叉二分分类
- 分类交叉昆虫多级分类
- 焦点损失偏偏数据集使用
- 加权焦点损失多标签分类
- 加权kappa多类分类
- BCE登录损耗获取sigmoid交叉寄生
- 自定义模拟损耗内用拼图意外偏向分类竞赛
- MTL自定义损耗内用igsaw意外偏向分类竞赛
优化器
回调方法
回调总能帮助监控模型性能同时培训并启动某些必要动作提高模型性能
- 模型检查站监减权数
- 学习速率调度器改变学习速率模型性能帮助容易归并
- 简单自定义回调使用lambda回调
- 自定义检验
- 搭建您的自定义回调各种使用案例
- 降高原等量停止提高时降低学习率
- 提前停止停止训练时模式停止提高
- 抓图编译在一个训练中获取各种模范检查站
- 快速几何编译
- 虚弱动画
- 动态学习速率衰变
评测交叉校验
选择合适的验证策略非常重要,以避免在私有测试集中产生巨大的振荡或模型性能差
80:20传统拆分对很多案例无效交叉验证大都比传统单轨验证拆分估计模型性能有效
kFold交叉验证有各种变式,如组k倍,应相应选择
- K倍交叉校验
- 过期kFold交叉校验
- groupKFold
- 逆向验证检查火车测试分布相近或无关
- CV分析不同策略
运行时技巧
可执行一些技巧来减少运行时间并同时提高运行时间模型性能
- 序列打桶保存运行时间并改进性能
- 从头尾取句输入句大于512令牌
- GPU高效使用
- 自由克拉斯存储器
- 保存加载模型保存运行时间和存储器
- 菲律宾凯时国际官网开户不保存嵌入式RNN解决方案
- 加载word2vec向量无键向量
模型编组
身处竞技环境 无法不编队爬上头板选择适当的编译/打包方法对从模型中获取最大性能非常重要
显示卡格列比赛使用的一些广受欢迎的编译技巧
终极思想
文章中,你看到许多广受欢迎的有效方法提高NLP分类模型性能ijjjjjjjjjjjjjjjjj