MLops博客

最佳7数据版本控制工具用机器学习项目改善工作流

5分钟
8月24日2023

跟踪模型和实验使用的所有数据并非易事需要很多时间并不仅仅是管理和跟踪文件并并发修改记录最新版本

使用正确软件可以不费力实现此目的良好的数据版本控制工具将允许你拥有统一数据集并强固存储器所有实验

并让所有团队成员平滑协作 以便每个人都能实时跟踪变化 并永远知道发生了什么

系统化数据版本控制 改善工作流程 并最小化出错风险

检验顶级工具数据版本控制 帮助你自动化工作优化流程

数据版工具对工作流至关重要,如果你关心可复制性、可追踪性以及ML模型线程

帮助你获取手工艺品版本 数据集或模型散列数据版本常登录元数据管理解决方案以确保模型培训可编译复制

如何选择数据编译工具

选择合适的数据编译工具工作流时, 您应检查 :

  • 支持数据模式:它如何支持视频/Oudio提供列表数据预览吗?
  • 易用性:工作流使用多简单增加多少管理费
  • diff比较:你能比较数据集吗?可见图像目录diff
  • 多好它工作与您的栈:您能轻易连接到您的基础设施、平台或模型培训工作流吗?
  • 你能让你的团队上机:如果团队不采纳它,工具多好无关紧要保持队友技巧集 和偏好集思广益

有一些工具值得探索

最佳数据版本控制工具

开工海王星

Neptune元存储器ML为研发团队所建 并运行多项实验

你可以日志并显示几乎所有ML元数据从超参数和度量到视频 交互可视化数据版本.

海王星手工艺品让你版本数据集模型和本地文件系统或单行代码相容S3存储器的其他文件具体地说,它节省:

  • 版本化hash文件或文件夹
  • 位置选择文件或文件夹
  • 文件夹结构化(递归性)
  • 大小问题文件或文件夹

i登录后可使用NeptuneUI组运行数据集版本或见手工艺品中间挂起运行.

数据编译时 海王星是一个极轻量解法并快速运行话虽如此,它可能不给你所有你需要的数据转换方法

反之,你得到kb88凯时开户平台5凯时app 全部在一个地方使用弹性元数据结构组织培训制作元数据仿佛字典或文件夹结构,用代码创建并显示UI

if you想知道它是否适合您的工作流

二叉偏差

剖面图

Pachyderm是一个完整的版本控制数据科学平台,帮助控制端对端机器学习生命周期网络分三种版本:社区版(开源能力部署任何地方)、企业版(完全版本控制平台)和HUCEdition(托管版,仍为贝塔版)。

平台之大弹性协作各种机器学习项目

数据版工具Pachyderm

  • Pachyderm允许你持续更新回播主分支中的数据,同时实验特定数据单分支或分支
  • 支持文件类型、大小和数,包括二进制文本文件
  • Pachyderm委托集中处理
  • 验证使团队能够相互工作、分享、变换和更新数据集,同时自动维护完整的审计轨迹,以便所有结果都可复制

并检查

最佳 Pachyderm替代

3级DVC

dvc

DVC为机器学习项目开源版本控制系统工具定义管道 不论语言使用

上版ML模型发现问题时,DVC通过调用代码数据并编程编译节省时间,使你可复制性也可以训练模型并通过DVC管道与队友分享

DVC可处理大量数据编译整理并用组织周全、无障碍方式存储kb88凯时开户平台中心侧重于数据管道编译和管理,但也有一些实验跟踪功能(有限)。

DVC-摘要

  • 使用不同类型存储的可能性-存储不可知性
  • 全代码数据源帮助跟踪每个ML模型完全进化
  • 持续维护输入数据、配置和代码组合
  • 跟踪度量
  • 内置方式连接ML步进DAG并运行全流端对端
  • 跟踪失败尝试
  • 运行于任何Git仓库并兼容任何标准Git服务器或提供方

并见

DVC vs海王星比较

4级gitLFS系统

gitifs系统

Git大文件存储项目开源开关替换大文件音频样本、视频、数据集和图形加文本指针Git内部,同时存储文件内容到远程服务器上,如GitHub.com或GitHub企业

允许你版本大文件即使是大到偶数GB大小带Git,更多主机Git库外部存储快速克隆取回从仓库处理大文件

同时,您可以保留工作流并保留大文件访问控件和权限与您的 Git仓库其余部分使用Github远程主机时相同

5级双关

DolitHub

Dolt数据库SQL可实现叉子、克隆子分支、合并、推拉仿佛Git仓库Dolt允许资料和图案并发使版本控制数据库有更好的经验.与团队协作的极好工具

可自由连接dolt和MySQL数据库相似使用SQL命令运行查询或更新数据

命令行接口导入CSV文件、承诺修改、推送远程修改或合并队友修改

Git所有命令对Dolt完全相同git版本文件,dolt版本表

临ΤDolitHub分享Dolt数据库

6级湖FS

湖fs

LakeFS是一个开源平台,它提供Git相似分支并投入模型,通过使用S3或GCS存储对数据Petabyte

分支模型使数据湖ACID兼容化,允许单片分支发生修改,这些分支可创建、合并并立即原子反推

LakeFS三大大区允许你集中关注ML模型的差分方面:

  1. 开发环境数据工具可分片湖面实验 其他人不接触可复制性比较修改并改进实验
  2. 连续数据整合输入并管理数据
  3. 连续数据部署快速恢复数据变换能力提供一致性数据集测试生产数据避免级联质量问题

LakeFS是一个很好的工具 聚焦于数据集的特定区域 提高ML实验一致性

7三角湖

三角洲湖

三角湖开源存储层带可靠性数据湖.三角湖提供ACID交易、可缩放元处理和单流分批数据处理并完全兼容ApachesparkAPIs

Delta湖-摘要

  • 可缩放元数据处理使用spark分布式处理能力处理方字节表所有元数据
  • 流批量统一三角湖表批量表和流源水槽流数据采集量 批量历史回填量 交互查询全出盒
  • Schema执法自动处理图案变换以防止进取时插入不良记录
  • 可串行隔离级别确保读者从不看到不一致数据
  • 数据版化可推回、完全历史审核轨迹和可复制机器学习实验
  • 支持合并更新并删除操作以启动复杂使用案例,如改变数据抓取、慢变分解操作、流上移等

包封它

现在有最优数据编译工具列表, “只要”需要想出如何令它为你和你的团队服务

难办

选择数据编译时需要考虑的有:

  • 何等容易搭建:你现在可能没有时间、需求或预算测试重物
  • 麻烦你带队上机:有时解决方案很好,但你需要更多面向软件的思维方式使用它某些ML研究人员或数据科学家最终可能不会使用它
  • 工具栈你今天使用:你使用特定工具、基础设施或平台与特定数据编译法相匹配那样的话 最优选择可能就是随波逐流
  • 数据模式:是图片表文本吗?偶而工具不支持你模式的极佳性 因为它建构时思想上不同用例

或搭建MLOPs栈

伸手给我并让我们看看我能做点什么

文章有用吗

感谢回馈