2010年DJPatil和Thomas Davenport公开宣布数据科学家为“21世纪最佳作业”一号..数据学和机器学习近十年来取得了巨大进步数据科学成功增强全球企业和组织预测情报和数据驱动决策能力,以至于数据科学不再被视为边缘专题数据科学现已成为主流职业,数据科学专业人员高需求各类组织从大技术公司到传统企业
十年前数据科学的重点更多是算法开发建模从数据中提取强健洞察力数据科学不仅仅涉及建模,机器学习生命周期从原始数据到部署,现在依赖专家,包括数据工程师、数据科学家、机器学习工程师MLops工程师与产品和企业管理者
数据科学家端点和机器学习工程师作用何时开始
角色化机器学习工程师跨公司渐渐显赫,因为它们认识到数据科学值无法实现,直到模型成功投入制作云APIs、AutomLA和数个Python库等工具技术使数据科学家更容易工作MLOPS系统模型制作监控性能仍然相当松散
详细研究从数据科学家到数据科学管理员等各种剖面的技巧、职责和技术堆栈时,参考我前一篇关于如何在行业中建设有效机器学习队的文章2..
执行数据科学项目有四大核心步骤:
- 问题配方将商业问题转换成数据科学问题
- 数据工程准备数据和管道处理原数据建模
- 建模设计实验算法和模型使用
- 部署测试后制作模型并监控性能

大技术公司和初创企业都有一个比较成熟的数据科学进程,工作按行划分清晰度因此,期望各子域的专业人员注重各自的专业领域并在需要时相互合作是常见的。小组织没有大型数据科学团队的奢侈条件,第一批少数数据科学雇工预期会跨出这些特殊功能,作为全机数据科学家工作。
定义和范围 数据科学家对机器学习工程师非常上下文并取决于数据科学团队的成熟程度关于文章剩余部分,我将扩展数据科学家和机器学习工程师角色,视大已建数据科学队背景适用
文章中我将:
- 评审并比较机器学习产业中数据科学家和机器学习工程师作用与职责的演化;
- 讨论作用范围、相似点和异点,以及如何确保这两个核心剖面之间的强连通和协作
数据科学家和机器学习工程师之间的差异
本节中,我将讨论技能、职责、日常任务、技术栈等的主要差异
菲律宾凯时国际官网开户数据科学家的主要责任是开发解决方案,使用机器学习或深学习模型解决各种商业问题并不总是有必要创建新算法或模型,因为这些任务需要大量研究并需要相当长的时间。在大多数情况下,使用现有算法或预培训模型并优化问题语句就足够了然而,在更创新和以研发为重点的团队或公司中,可能要求科学家制作新式研究和模型人工品
正相反华府ML工程师主要目标取数据科学家制作模型并制作其中包括模型优化使其适应自定义部署约束并建设MLOps基础设施实验、A/B测试、模型管理、容器化、部署和模型部署后监测性能
这些因素转化成技能、职责和技术栈基本差分如下表所示
数据科学家
|
机器学习工程师
|
问题解答 |
编程 |
编程 |
数据结构 |
统计学 |
数据建模 |
数据科学 |
软件工程 |
机器学习:监督非监督 |
机器学习框架 |
数据分析 |
统计学 |
数据可视化 |
ML概念知识 |
笔试语言交流技巧 |
|
演示技巧 |
|
表1数据科学家技能对机器学习工程师
数据科学家
|
机器学习工程师
|
识别并验证可用ML解决的业务问题 |
部署MLDL模型制作 |
ML生命周期不同阶段分析并视觉化数据 |
优化模型提高性能、延时性能、内存和吞吐 |
开发定制算法和模型 |
各种硬件推理测试包括CPU、GPU、边缘设备 |
识别额外数据集并生成合成数据 |
监视模型性能、维护、调试 |
开发数据注解策略 |
版本控制模型、实验和元数据 |
与跨功能利益攸关方协调 |
开发定制工具优化全部署工作流 |
开发定制工具优化整个建模工作流 |
|
表2数据科学家对机器学习工程师
数据科学家
|
机器学习工程师
|
Python/R/SQL |
Python/C++/Scala |
Jupyter、Sagemaker、Googlecolab笔记本 |
inux/Bash |
git,Github/Bitbucket |
git,Github/Bitbucket |
云:AWS/Azure/GCP |
云:AWS/Azure/GCP |
ML:Scikit-learn,rapids快速 |
DL:PyToch、TensorFlow、JAX、MXNet |
spark实战 |
杜克库伯涅茨 |
可视化:Matplotlib,Seaborn,Bokeh |
TFServing、TensorRT、TarkServe |
元数据存储器:Neptune.ai、Comet.ml、Wights和Biases |
元数据存储器:Neptune.ai、Comet.ml、Wights和Biases |
表3数据科学家技术栈机器学习工程师
相似性、干扰和交接
数据科学家和ML工程师相似性
表1至表3显示,两者之间有部分重叠数据科学家和机器学习工程师的技能和责任.技术栈也相当相似, 数据科学家预期多用Python编码, 机器学习工程师也需要知道C++
机器学习工程师与数据科学家相比可能缺少专题知识,他们用数据科学家不那么熟悉的库贝内特斯等工程工具与框架知识补足知识
数据科学家通常有STEM后台或高级学位像Ph.D各种领域如生物学、经济学、物理学、数学等另一方面,机器学习工程师通常具有软件工程师专业经验。
数据科学家主要处理算法和模型开发问题,机器学习工程师关键焦点是可缩放软件工程与模型部署和监测相关,剩余任务常为两个剖面所常见
少数几例中,这些任务可能共享视数据科学团队大小成熟度而定,事情可能顺利运作然而,多或少,特别是在大队和大组织中,这可能造成相当大的冲突与摩擦,特别是当数据科学家和机器学习工程师在不同队工作并报告不同管理者时。
交接过程
数据科学家和机器学习工程师各自的任务可划清界限数据科学家开发一个或多个候选机学习模型并按具体合同交给机器学习工程师
合同应具体说明:
- 模型精度
- 延时
- 内存性
- 数参数,
- 机器学习或深学习框架使用
- 模型版本
- 模型预测
- 并用基标签验证或测试集
结构化交接合同确保机器学习工程师拥有所有必要信息以进行模型优化、进一步实验和部署过程交接后 数据科学家自由聚焦 下一机器学习使用案例
数据科学家和机器学习工程师之间的协作继续部署后并变得至关重要,特别是当模型破解制作时数据科学家对模型工作有更深入的了解后,更能解决故障并修复模型
同时,模型故障与机器学习工程师开发基础基础设施裂缝相关联,他们最能解决这些裂缝问题。持续完善模型通过主动学习实战数据也属于数据科学家范畴。
数据科学家和ML工程师之间的通信协作
数据科学团队的成功取决于各种剖面的强力协作2..数据科学家和机器学习工程师在模型开发、部署和部署后监控和完善期间持续协作最理想的是,如果这两个简介应归同组并归同级领导在这种背景下,协作变得更容易并发扬强大的共事和相互学习
然而,当数据科学家和机器学习工程师加入不同团队并报告不同领导层时,协作并不如应强。数据科学家和机器学习工程师无法直接互动,依赖Slack、Teams、JIRA、Asana等团队生产率和项目管理工具
对许多重复常用案例而言,使用协作工具实际上是一种恩惠并节省团队大量时间和精力依赖原子单元为门票或任务的工具的事务性质不产生团队联动和协作感。数据科学团队高度依赖这些工具,这是常见不满
城外
比较复杂任务或项目亲临现场或视频协作势在必行,领导者不应置之不理。技术专业人员往往在这些环境中从企业头目那里学习新使用案例或客户,企业专业人员则可能学习新技术突破解决上下商业使用案例数据科学家和机器学习工程师也是如此,每一方都可学习新算法或模型或新框架,提高数据科学的效能和生产力。
当前行业趋势
新版哈佛商务评论文章一号2021年发布时,它称“机器学习工程师”为2020年代最性感的工作数据科学和模型开发仍然是跨行业和学术界的有利可图作用,但近些年来,产业焦点略微转向建设可扩展和可靠的基础设施,为数以百万计客户服务数据科学模型。
机器学习工程师角色比技术产业数据科学家需求大得多
- 业界领袖知道,大型复杂机器学习和深学习模型在学术基准或培训数据上实现最先进性能是巨大的,但在部署并服务客户以高精度可靠快速请求前,这些模型不会为企业产生商业价值。
- 更多企业正成为数据驱动公司并建立数据科学和机器学习团队或组织3关键是测量并实现所需水平ROI
- 大技术面向客户公司早期冒险投资AI已经搭建出强大的科学家团队,并正期望提高生产能力和研发科学家开发的人工品商业化
- 顶级数据科学家, 特别是高学位如博士的科学家 总是高需求, 目前我们看到职场正在寻找技术机学习工程师 与数据科学家相比供应有限
从数据科学家向机器学习工程师过渡
在线学习平台多门课程如Coursera、Udacity、Udemy等教官相对不足 内容聚焦机器学习工程实践建数据科学模型可以发生在像Kagle这样的沙盒环境里,而模型不为现实世界预测服务,但只能在现实世界环境中学习可扩展模型部署、监控和相关机器学习工程任务机器学习工程MLOPS比较实用化,拥有建设和维护强健基础设施所需技巧的专家较少
同时,现有数据科学家受潜在更大效果、更好补偿和长期职业前景等允诺的诱惑,也在寻求向MLE角色过渡。
如表1、2和3所示,这两个角色有相当大的重叠机器学习工程师注重将模型带入制作的“工程学”方面,而数据科学家则注重为具体商业问题开发正确的模型集数据科学家需要学习成为有效机器学习工程师的最相关技能是软件工程学,包括写最优代码的能力,最好是C++测试,并理解和构建并操作现有或定制工具及平台,实现可靠的模型部署和管理
数据科学家绝对有可能学习C++和软件工程测试以及机载新工具和技术等最佳做法杜克库伯涅茨ONNX建模平台多源然而,由于公司需要机器学习工程师事先相关经验,数据科学家如果没有实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战实战
数据科学家向机器学习工程过渡的最佳途径 与当前雇主数据科学家向管理员表示对机器学习工程的兴趣并允许跟踪或甚至协助并协同机器学习工程师执行具体项目,则更容易在同一公司内部转换这是一项对新毕业生的挑战 没有任何行业经验, 类似内部过渡路线 从数据科学或软件工程 向机器学习工程
行业成熟和公司进化机器学习系统和相关过程,如录用和提升技能,让更多候选人更容易从数据科学向机器学习工程过渡
结论
AI是现代企业的基石IT革命在过去十年间大大加速并导致对数据科学专业人员的大量需求未满足数据科学学科也演化成型,生成以数据、建模、工程以及产品和客户成功管理为主的独特剖面机学工程师在这些剖面中发挥关键作用,利用数据科学家开发模型,数据工程师制作数据,产品或企业管理者识别开发使用案例结晶
当前对机器学习工程师的需求类似于十年前对数据科学家的需求AI产业规模和性质上的这些变化会继续发生,为工程师、科学家和商业专业人员提供新的挑战性机会,让他们踏入门口。
引用
[1]https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
[2]//www.musclechai.com/blog/how-to-build-machine-learning-teams-that-deliver
3//www.musclechai.com/blog/building-ai-ml-projects-for-business-best-practices