案例研究

海王星如何帮助Zoines提升到100s不减慢

越多使用海王星, 越多我感到我宁可支付托管解决之道 也不愿自己维护基础设施
高级数据科学家Zoined
前头
    拼命维护开源跟踪解决方案
    缺失可缩放性方面
后传
    可扩缩管理跟踪工具不分散团队构建模型

柔化提供零售和接待分析服务云化服务从高层管理到管理层次的不同角色服务从商店和场地收集销售数据,包括盘点、时间和出勤量、访问跟踪系统以及Webshore数据分析并展示为企业主提供极易获取视觉格式,以便企业主能够获得实时可操作洞见并选择首选时间框架报告产品还允许企业很容易过滤并分组数据并创建定制视图,快速用图表抓取趋势

oined仪表板
oined仪表板QQQ柔化

与Zoined企业共享全机脱机解决方案,配有即兴仪表板和分析批发,特别是时装、食品零售、咖啡店和餐厅需求

问题

运行大量实验 特别是在启动时 很少有科学家和工程师解决问题跟踪实验 编译数据集难免会变大 并通常使用程序获取可复制结果Kha首次加入Zoined时正面临这个问题

atar懒惰加载
引用
当我加入公司时,我们做了许许多多不同的实验 很难追踪所有实验 所以我需要点东西来观察结果或偶或 或同时它中间结果 一些实验像数据框架长像CSV长什么样合理吗进程之间有出错并产生不良结果吗?先人工编日志 后写日志值像Splunk
高级数据科学家Zoined

kb88凯时开户平台此外,他是唯一负责Zoined预测管道的人,这使实验跟踪更烦心手动操作

并寻找方法可视化完整实验和中间实验结果, 以便提高实验过程的效率

kb88凯时开户平台Splunk实验跟踪问题

团队尝试的第一个解决方案是人工日志实验滑雪.第一,从工具开始可吓人启动

问题二是视觉登录值很难实现,可能需要专家帮助搭建

Splunk可快速获取昂贵数据-特别是公司运行大量实验并需要向日志服务器发送大量数据

问题维护ML流

可靠性和速度ML流

下个解法Kha测试ML流.ML流问题之一是托管选项可用正像他提到的那样 MLFL解决方案Databricks开始使用自托管MLFL解决方案,但快速难为个体管理

atar懒惰加载
引用
......我们开始使用它,但我认为唯一使用主机MLFL解析法的方法就是使用Databricks否则,我们主机ML流出 和我是唯一负责 整个预测管道在这里i实验并同时维护ML流实战实属麻烦事,我们必须为它准备数据库,S3为它准备数据,然后一些服务器运行它
高级数据科学家Zoined

使用ML流可计算密集性,耗用大量内存并慢跑

atar懒惰加载
引用
ML流有时不可靠,因为我认为它并非真正优化,因为它消耗了大量内存并运行速度非常慢
高级数据科学家Zoined

本地服务器主机ML流问题也与Kha自定义缩放问题相关在大多数情况下 ML流处理不了大流日志 或崩溃或UI停止响应 延缓实验工作流正像他所提到的:

atar懒惰加载
引用
真正的头痛出现时,我们运行像100实验和100预测同时并发,所有数据开始流入ML流即时我们看到ML流不响应,不可用
高级数据科学家Zoined

获取ML流为日志流工作时,他不得不增加案例数,成为复杂操作处理

atar懒惰加载
引用
.所以我不得不增加实例数,但让实例逐时扩增并说不通我所能做的就是搭建弹性尺度需要更多基础设施维护 因为我觉得Terraform基础设施 长得相当大那时我感觉如果我可以分享 其他人,它会提高效率
高级数据科学家Zoined

ML流实为Khat管理百度实验的极好工具,

问题协作ML流

与自托管MLFL解决方案协作对Kha是一个问题,因为分享实验很难做,因为他需要为日志创建URL别名,特别是如果他想与其他合作者分享这些别名的话。正像他所说:

atar懒惰加载
引用
并存问题为它创建 URL别名所以我觉得为什么我非要手工做这些事
高级数据科学家Zoined

求解

Kha需要像MLFlor这样的解决方案,但没有自托管MLFlor解决方案带来的麻烦求得解法

  • 完全管理
  • 花不久时间搭建并启动
  • 可持续大规模实验日志和预测数据集
  • 完全自动化快速
  • 可定制并综合现有技术

Kha决定挖掘海王星 满足所有需求

atar懒惰加载
引用
感觉像“我为什么要手动做这些事?” 然后我来到海王星 似乎,好吧,这是宿主,解决之道 似乎等效ML流
高级数据科学家Zoined

Kha决定选择海王星为Zoined日志实验元数据解决方案

  • 一号完全管理快速可缩
  • 2物价比优可达
  • 3有更好的图表和可视化实验
  • 4可视觉化所有类型数据 不论大小结构
  • 5自动记录硬件性能度量
  • 开始使用海王星, 并用得越多,我越觉得 "好吧,我宁可支付 也不愿自己保持这个基础Kha Nguyen,Zoined高级数据科学家

    完全管理基础设施最能改善实验过程, 免得他担心基础设施和操作工作量(从技术上讲不是他核心长处),

    与ML流相比,Neptune自动算术处理手工艺品和元数据记录ML流应用常崩溃,每当他试图登录一万多行CSV文件时,停止工作并归根结底停止生产率

    正如他所解释的:

    ML流出时,当我登录CSV文件时 约一万行,ML流停止工作点击CSV文件可能需要三分钟后它出现, 即使是启动时,它也不再顺利工作完全不可使用,但内普图内并不存在问题 。- Kha Nguyen,Zoined高级数据科学家

  • 海王星使用得越多, 我就越想支付托管解决之道, 而不是自己维护基础建设.我和Salsa(ZoinedCEO)谈过,-Kha Nguyen,Zoined高级数据科学家

    正像他发现海王星大替代菲律宾凯时国际官网开户前置解决方案个人使用海王星工作、研究和个人项目不值钱团队标价从每队49美元开始, 只有在他们超免使用定额时才能支付额外费用和海王星并驾齐驱对Kha并非复杂过程

  • 内普那公司拥有更多可视化或图表,因为有时我想登录图表或图时ML流可以做到这一点,但开图表速度会变慢

    人所共知特征海王星能力定制图表并自动化使用可视化特征保存用户很多时间对Kha而言,Neptune比ML流高得多和响应性可视化特征用于实验和其他度量

  • 海王星发现可视觉化数据与熊猫数据框和工作空间平时一样,他也可以记录大量数据流供实验使用,一切正常工作

    内公尺处理大量数据 完全管理, 在那里 Kha只需担心他的实验 而不是底层日志服务器并发现海王星直接登录数据框架的能力 非常有用

  • 海王星提供的独特特征之一与ML流比较即为用户登录硬件度量选项AG凯时手机版提供深入调查他们的实验方式 和他们占用多少资源赫特特别发现此特征有用,以便他用洞见提高资源使用实验

    卡解释:

    自动计算资源监控 开始监控CPU和存储器外用AG凯时手机版我认为那很酷 这样我们可以测量 多少风险资源我们需要做当我看它时,我可以看到我们使用太多内存或不够用?需要多使用CPU吗?-Kha Nguyen,Zoined高级数据科学家

结果

数月使用Neptune后,

整体而言,海王星能够满足海王星的要求,海王星是他团队中个体数据科学家证明它是一个有用的解决办法,因为:

  • 先前曾与ML流解法抗争后, 完全管理式解法允许Kha更多关注改善实验,

  • 海王星和更多海王星都可登录--Ka Nguyen,Zoined高级数据科学家

    Neptune Kha提供自定义日志选项,并包括非箱式元数据选项选择记录大量数据也有助于改善Kha实验工作流,使其所有实验优化工具都易于集中使用

  • 编程像CPU度量或内存度调试和大数据并行运行的东西时非常重要举个例子i使用ML流时没有想到这一点,所以我发现这一点极有帮助。”- Kha Nguyen,Zoined高级数据科学家

    Neptune硬件性能监控功能帮助Kha估计内存用量并相应优化,省下他在亚马逊Webservice上工作的钱

  • 越多使用海王星, 越多我感到我宁可支付托管解决之道 也不愿自己维护基础设施- Kha Nguyen,Zoined高级数据科学家

    菲律宾凯时国际官网开户Kha发现海王星比其他解决方案更经济化选择, 不仅成本比他维护ML流时低, 完全管理式解决方案降低了他在Zoined基础设施托管日志软件所花的帐单。

    对Kha而言,Neptune证明不仅是ML流的更好替代物,不仅从经济角度上讲,而且从他在多项实验中的生产率上讲也是如此。

    自我切换海王星以来,目前我不再使用ML流水量 因为我觉得海王星是ML流水量的超级集


多亏卡帮助创建案例研究

阿凡达
引用
越多使用海王星, 越多我感到我宁可支付托管解决之道 也不愿自己维护基础设施
高级数据科学家Zoined

想要你的团队专注于实验 而不是维护基础设施

Baidu
map