ilslab使用海王星标准日志消除错误通信
ilslab是一个小生物信息研究组 执行令人类更健康任务就是搭建模型 将来可能保心免病归结为应用机器学习预测心血管疾病开发 基于临床、成像和遗传学数据
高强度研究需要定制基础设施(约一年构建)从不同类型数据提取特征
- 电子健康记录
- 时间对事件(回归方法)
- 图像(卷积神经网络)
- 结构化数据和ECG
结合这些特征 精确机学习模型解决复杂问题风险分层初级心血管预防关键是要预测哪些病人最易染上心血管病
研究过程:
- 一号定义任务解决(例如构建心血管疾病风险模型)
- 2定义任务目标(例如定义预期实验结果)
- 3准备数据集
- 4与Jupyter笔记本交互模式编译数据集快速实验,找出任务和数据集的最佳特征,用R或Python编码
- 5项目升级后使用工作流管理系统,如Snakmake或Porder转换工程成可控管道并可复制不复制工作流或比较不同的模型代价高昂
- 6使用PyTorrch Lightning与Neptune整合创建机器学习模型,应用部分初步评价日志实验数据
- 7最后评价模型性能并检查使用不同特征集和超参数效果
问题
5个问题提升机器学习研究
ilslab启动小群开发者协作变得更具挑战性新问题开始出现 并进新队.快速发现问题 海王星帮助解决
-
前海王星
因数据有限,ailslab使用NDA保护私有数据模型只能在本地培训,数据无法上传到任何地方,所以有大量额外工作来确保数据安全性
海王星
ilslab分离数据工作流和分析工作流
海王星保留敏感数据安全,它只是接收登陆信息 研究人员决定分享, 训练部分可以在本地机或别处发生提供iilslab最大控制 -
前海王星
小小团队 ilslab不需要标准实践团队持续成长 新开发者带入不同的编程风格 管理代码开发变得越发困难
海王星
多亏Neptune研究者使用标准库构建模型,这比写自定义代码容易得多外加标准视图登录信息并发PyTark Lightning集成.所有团队成员使用相同的基础设施.
海王星统一显示结果 少报误通
-
前海王星
详细病人记录由多式数据组成,这意味着对ailslab研究者进行多式培训过程高度复杂 有大量移位部件测试使用像ailslab团队一样多的实验,很难跟踪所有接受过不同版本数据集及其特征培训的模型
海王星
选择模型最佳特征更容易因为在海王星比较快速直截了当研究人员比较模型性能、详细参数甚至硬件资源耗用缩放非问题.海王星处理各种实验 ilslab研究者向它倾注
-
前海王星
ilslab研究者不得不做人工作业,如手工设置检查站或想出如何修改一个或多个超参数做另一个实验
海王星
ilslab头目可以监督研究者并用一个仪表板比较实验.团队不再关心组织实验,像海王星相当优雅地做加法海王星版本数据以更好地控制实验.
-
前海王星
使用定制登录器时回答分析实验时基本问题极具挑战性++自定义日志负载管理日志长期并必要时添加新特征错误发生时 更多时间建内部工具 而不是研究
海王星
海王星可分组实验比较算法易获取链路分享结果与另一个研究者或利害相关方
即使是研究者离开项目 不再可用海王星保存所有实验信息.
海王星自动记录API的每一次实验所有实验都可见于团队所有成员中,从而使整个项目透明化。
求解
ilslab选择海王星
简言之-因为它省时如果你是研究者 你知道管理多重实验是挑战有如此复杂的目标和工作流,ailslab团队必须做大量烦心事才能保持正确轨迹
海王星省下时间 清除大量无聊工作 时间是一种奢侈 ilslab团队没有太多
结果
- 与使用定制日志相比,Neptune处理所有事务,团队有更多的时间执行研究任务
- ilslab研究者现在使用一个平台,结果以同样方式显示少留错误空间
- 比较管理实验耗时更少研究人员可回溯实验历史,修改并观察变化如何影响结果
- 搭建复杂模型(如深学习图像模型)并探索如何工作比较容易海王星存储环境搭建数据 底层代码 模型架构
- 海王星帮助组织事务ilslab中,从Neptune添加实验URL很容易访问实验信息有助于保持一切组织整个团队对模型超参数效果有更好的理解
归根结底,机器学习很难搭建ML模型以检测心脏病海王星清除ailslab项目中乏味部分,我们对此感到高兴,我们祝它们研究中一切顺利。
深入了解ailslab查查他们的全故事
感谢Jakob Steinfeldt和Tore Bügel帮助创建案例研究