案例研究

深思.a

在一个机器学习成熟阶段 需要像这个工具自然上升Neptune是一个稳健选择,因为低输入阈值、多功能和良好文档支持
PatrykMiziu
高级数据科学家深思.
前头
    kb88凯时开户平台无实验跟踪法
    无法跟踪、可视化和比较模型
后传
    团队有箱外解决方案,可处理120k实验跟踪分析

深思.a菲律宾凯时国际官网开户面向AI软件服务公司向零售公司、制造公司、金融公司和其他部门提供基于ML端对端解决方案支持企业建设AI能力方面有多年经验

PatrykMiziu中东欧食品公司.

任务使用ML分析促销运动对增销的影响.

听上去相当基础性等待您详细理解问题语句

人工智能机学习科集中研究元学习框架,如TensorFlow和PyTorch

项目是关于什么的

Patryk引导我们解决问题, 简言之, 项目分析任何推广运动 关于食品项目,如果果果果果果果果酱和泡菜

详解食品公司有以下供应链结构:

供应链结构运动由公司运营-其中一些面向多产品,有些面向单产品,但面向所有承包商/客户等
供应链结构运动由公司管理-其中一些面向多产品,有些面向单产品,但面向所有承包商/客户等

食品公司对果酱果汁等各种产品实施排序为“x%折扣”。部分运动面向主承包商,而部分运动面向承包商客户可能出现运动面向消费者的例子,例如Buy3支付2

他们想创建模型预测产品每日销售数即促销运动分析运动对产品销售的影响

特征关联到 :

  • 一号客户规模从商店容量、收入等、地点数、承包商数
  • 2承包商
  • 3产品:价格,产品类型
  • 4推广/运动:tvads对在线ads对impers

并整理它全部创建一行, 每天一行包括该特定日期的销售号

PatrykMiziu

问题

这个问题特别非三维归因:

  • 复杂数据包含大数据源
  • 上百种产品
  • 数以百计的承包商
  • 千商客户
  • 各种促销类型面向产品从工厂到家的不同阶段
  • 向每个承包人或承包人客户提供不同的促销参数
  • 各种推广周期
  • 重叠推广
  • 动作比赛等

加上困难,也很难判断增价是应用数十种推介造成的,是它们之间的协同关系造成的,还是不管运动如何都发生的。

解决如此复杂问题Patryk团队多次重复逻辑以很好地构建问题举例说,不同产品和承包商的升级由不同人员管理并人工设置,因此没有面向所有承包商的通用推广模式

正因如此团队决定对每种产品、承包商和有时客户类型使用单独的模型.引导7000多例独立案例模型

转模型7000子问题训练比训练更多120 000模型问题本身大团队处理ML问题时 必须有高效解决方案

  • 跟踪实验~120k实验需要高效跟踪系统在规定时间内执行项目并产生良好结果求得最佳组合 促销子题 客户数据 高参数模型配置 多实验子题

    逐项实验都得跟踪 才能找到最优配置 做出知情决策kb88凯时开户平台由于没有实验跟踪机制,这将快速演变为混乱,最终导致错过最后期限和巨大的技术延迟
  • 可视化和仪表板制作多模型训练运行
    强健比试法
    - 因为每个ML项目都由团队执行,解决办法必须是协同

    单片逐行查看静态环境,而不是创建动态仪表板比较单片多运行情况,这已变得超乏味。节时高效协作
  • 保存元数据 :单ML实验生成数吨元数据,包括量度数据(培训/验证/测试)、结果元数据(图/图/图/图和数值数据)。乘以千数运行 元数据管理问题

Patryk及其团队快速发现这些问题必须先解决才能向前推进

atar懒惰加载
引用
处理7000多台单机学习模型而不使用任何专用工具几乎是不可能的我们绝对需要一个框架 能够分组管理实验
PatrykMiziu 高级数据科学家深思.

求解

atar懒惰加载
引用
需要工具存储并比较大量实验结果 分解子题简洁插入代码是一个标准
PatrykMiziu 高级数据科学家深思.

与Patryk协议使用指定工具似乎是明智选择,因为你需要解决手头问题,对Patryk来说,它就是 "分析促销运动对增销的影响和不如何高效管理120k模型.

幸运的是,Patryk及其团队成员已经熟悉Neptune原因选择,据Patryk表示:

  • 一号熟悉海王星
  • 2简单使用Neptune和方便API下载运行表和趣味实验
  • 3快速精确支持

以透视事物, 我们问Patryk, 万一你的团队选择极对立解决方案-使用目录和表格存储并跟踪一切-

atar懒惰加载
引用
对200种产品类型中的每一类而言,我们创建了单独的滤波树,滤波深度取决于当前水平可用数据的数量。

多模型如果市场里没有实验跟踪器, 我认为我们必须尝试存储大量不同的模型, 并存相关元数据与结果 并存到不同的目录和exce

这会很乏味和耗时增加痛苦的是,我们需要改变特征生成滤波树 因改变项目需求

工具像海王星, 你可以改变事物,它只是工作
PatrykMiziu 高级数据科学家深思.

开始启动

海王星集成项目代码库顺利展开,因为Patryk及其团队熟悉海王星API正像他所解释的:

atar懒惰加载
引用
加入海王星代码微风唯一问题是我们创建实验数之大以致标准API无法处理创建批量函数下载运行表和实验是一个解决方案
PatrykMiziu 高级数据科学家深思.

谈谈他们使用平台的原因 以及它如何帮助实现目标

日志保存元数据

海王星顺利整合到代码库后,即应使用功能团队使用海王星:

  • 自实验数超过100k即巨大无法人工监控以来,Neptune平台为组织并跟踪实验提供求解法一种方法就是分批查看实验,因为平台无法同时列单>100k实验

    Patryk团队使用Neptune+Optuna优化并监控120k实验的超参数他们特别喜欢Optuna和Neptu

    Neptune与Optuna合作良好100Optuna测试模型 最优超参数发现 搜索历史存储海王星简言之:我们喜欢它'-PatrykMiziu

  • 记录从实验直接运行到实验元数据CSV登录Optuna特征集

  • 大部分工作流都涉及用图图和图作运算比较,由于图模模块性交互性,Neptune选择在仪表板上做实验

    ...海王星美学因此我们可以简单使用报告生成的可视化

    共培训超过12万模型7千多子题归根结底海王星,我们能够过滤子题实验并比较以找到最佳子题并存储了大量元数据 超参数调优可视化 预测 泡菜模型等简言之,我们正在保存海王星需要的一切...PatrykMiziu

机器学习项目尺度时,它需要像人类宝宝一样持续培养和监测为了避免卷土重来,你需要一个工具来组织并跟踪这些东西

atar懒惰加载
引用
在一个机器学习成熟阶段 需要像这个工具自然上升Neptune是一个稳健选择,因为低输入阈值、多功能和良好文档支持
PatrykMiziu 高级数据科学家深思.

结果

海王星首选 出自深思.i团队选择海王星为MLOps的一部分

  • 存储模型元数据不用担心同步问题 与特定实验
  • 保存周尝试对目录和工作表做同样的事情
  • 运行120k+实验不用担心存储缺陷和磁盘失效
  • 比较多推广结果带不同滤波获取最佳结果
atar懒惰加载
引用
多亏Neptune,我们能够同时运行5块裸金属脚本并存储结果而不担心潜在的同步问题这使我们能高效工作
PatrykMiziu 高级数据科学家深思.

kb88凯时开户平台团队和项目需要实验跟踪工具

atar懒惰加载
引用
万一没有实验跟踪器 最终会模拟最终我们会写出我们自己 可怜的版本 类似的东西估计需要一个月或一个月以上取海王星API加入工作流 花了两天之久
PatrykMiziu 高级数据科学家深思.

海王星融入MLOPS工作流证明对Patryk和他的团队产生效果选择像Neptune这样的工具同时集中处理手头问题不仅能证明结果质量有效,而且能快速实现结果。


感谢PatrykMiziu

阿凡达
引用
尽快忘记人工实验管理立即切换专用管理工具并绝对考虑海王星
PatrykMiziu 高级数据科学家深思.

运行千载实验厌倦存储缺陷和磁盘失效

Baidu
map