ML技术，初创企业的“护城河”

Allie K.Miller 发布日期：2022-04-26 17:08:56

本文原题为“Embracing an ML-first mindset helps startups accelerate time-to-market and build long-term competitiveness”，作者Allie K.Miller，经朋湖网作者王姿蝶编译整理，供业内参考。

“如今，机器学习（ML）和人工智能（AI）不再是有抱负的技术。”在与世界各地成功初创公司交流过后，我们获知到这项特别的概念。据IDC预测，到2024年，全球人工智能和认知技术支出将超过1100亿美元，Gartner预测，到2024年底，75%的企业将从试点转向人工智能运营。

当下，大多初创公司诞生于云端，早期主要依靠极少的技术债务来发展其“数字化转型”旅程。这部分企业能够利用ML对大量数据进行准确预测，完善其决策过程，并迅速为客户提供提供价值，实现创新和文化加速。

在业务中，初创公司能够利用可扩展计算能力及开源ML库来创建专注于自动化、效率、预测能力和可操作洞察力的业务，因此地位独特。例如，AWS与自然语言处理（NLP）模型开源提供商Hugging Face合作，创建出Hugging Face AWS深度学习容器（DLC）。DLC能够为数据科学家和ML开发人员提供出Amazon SageMaker上构建、培训和部署的NLP模型完全管理体验。基于此，全球数据科学家与开发人员如今能够利用开源ML模型来部署和微调预先训练的模型，同时将设置和使用NLP模型所需的时间从几周压缩至几分钟。

而这类以ML驱动效率的模式正在改变创始人及创作者团体将产品及服务推向市场的思维模式。ML的创新将开源深度学习框架访问、数据日益普及、尖端研究成果可访问性及云管理、部署、分发工作负载的成本效益进一步缩减。

笔者表示，现阶段已到达优先构建ML业务时刻。无论是构建自身ML模型还是采用预训练模型AI解决方案，ML优先的企业都将处于最佳位置，采取“第一天”方案——专注结果而非流程，提升敏捷度、实现快速接受外部趋势。“实验和冒险是产品性能增长的根源。”因此，在面对新型事物时，第一次就做对并不那么重要，这一思维也将为未来产品持续进程提供保障。

以下是初创企业建立和发展战略性ML优先业务的四种方法：

选择ML-first

初创企业应该接受的快速进入市场的一个行之有效的领导原则是：偏见行动。

处于商业中，许多决策与行动具有可逆性，因而实施速度很重要，某种程度来将，不需要广泛研究作为支撑。

行动偏见、快速实验、快速原型以及快速学习和迭代能够有效操作自动化ML来提高效率，并通过识别、利用核心IP来快速启动模型、产品、功能，而这些能够协助云原生初创企业与客户、云提供商及利益相关者将紧密且具备可操作性的反馈循环。

使用ML工具进行自动化运行、并行分布式培训作业或多个ML模型同步管理实验对业务速度及使用ML进行创新、提高敏捷性而言极其重要。ML驱动的自动化不仅能够消除手动筛选大型数据、日志和跟踪库中出现的识别、修复错误时间成本，同时能够创建预测，并允许预测后续规划，更迅速给组织同步行动。

决定初创企业业务成功的另一个关键因素是大量数据模式匹配度。

ML能够加快在大量数据中快速查找的速度，但却可能需要几年时间来分析生成和存储的所有数据。此前，临床阶段的神经行为健康公司BlackThorn Therapeutics（当下已成为Neumora Therapeutics的一部分）建立了一个平台，能够通过快速收集和分析大规模多模型精神病学数据进行新疗法的快速迭代。

在早期发现和临床前研究中，科学家往往需要获得广泛计算能力来执行计算模拟或大规模分析等任务。BlackThorn应用依据其数据驱动洞察力，将候选药物导向神经生物学定义的最有可能对治疗做出反应的患者群体。为实现这一目标，BlackThorn将基于云的ML在需求高峰期拓展，在需求低谷进行缩小，这样一来分析与实验间就可以并行进行，而非一次性试验。

计划性发展ML模型

ML并非一次性事件，它是一场迭代过程。

持续性使用ML模型及工具将有效为其进行迭代升级。一旦创建了原型ML模型，开发人员和数据科学家必须易于访问才能有效工作。这其中包含数据处理、正确训练数据模型、以拓展性方式部署模型等步骤。

初创公司最容易犯的错误之一是仅部署ML模型却并不进行监控和更新计划。与部署ML模型相同，持续监控模型预测同等重要。制定数据策略初衷是为让初创公司不断收集新数据输入ML模型，起到重新培训数据集的作用。只有这样，模型才不会因数据缺失而经历“概念漂移”，并逐步依靠现实世界变化中生成的新数据“滋养”而产生数据偏见。

为了发展动态ML模型，开发人员必须利用自动化来消除低效率实现最佳应用组件。因此，ML模型往往倾向于模块化，以更大的灵活性来编排自动化管理工作流程，为开发人员腾挪出处理关键业务问题的时间，并节省寻找专业人士进行构建和维护复杂ML管道的费用，以便获得最佳效用。

拉丁美洲领先的食品配送服务公司iFood每月需要处理来自1000多个城市注册的22万家餐厅的3900万份订单。这种庞大的食品配送服务挑战需要路线优化及新的食品/菜单项目的动态变化的技术支撑，因此模型必须进行适时更新。

为解决这一问题，iFood使用了ML服务来对自动化ML工作流程进行创建。伴随需求不断增长，这些工作流程也在不断对物流和运营自动化决策进行改进。现在，ML已经能够使iFood为食品配送人员实施路线优化，将送货路线行程缩减12%、运营商的闲置时间减少50%，最终实现业务交付SLA性能从80%提升为95%的跃居。

识别核心IP并利用开源力量

在没有识别、区分其核心问题和解决方案IP的情况下投入市场是初创企业容易踩到的另一“雷区”。

当这种情况已然发生，随之而来的便是其堆栈的非IP部分及云技术的盲点的涌现。而这也是初创不喜构建自身数据中心、数据库、分析软件的原因。对他们来说，从零开始构建一切是毫无意义的，因为专有平台在试图集成和扩展时很有可能会面临瘫痪。

如何来让初创企业保持长久竞争优势，并创建自身“护城河”？答案是，创建在产品中心有区别且独一无二难以复制的IP。

据观察得知，初创企业采取成功开源的另一个成功趋势是实施积极贡献部分代码库的方式来解决更广泛行业问题。成功的初创公司总是在开源代码创建的同时对其提供出高级版本或难以效仿的执行功能专有信息。

例如，总部位于西雅图的OctoML在开源框架Apache TVM（OctoML创始人创建的ML堆栈）中构建了深度学习模型加速平台，协助每个人都能够在任何地方访问高性能ML。

如今，OctoML与开源ML社区正在一同解决“无法在任何硬件端点及云提供商上进行部署、广泛访问的ML模型技术”。针对此问题OctoML提供出一个灵活、基于ML的加速自动化层，该层能够运行在边缘、云端运行机器学习模型的各种硬件之上。这一方案能够允许ML开发人员更快地将模型部署于各种硬件端点生产中，达成不必牺牲性能的作用。因此，培养更多开源ML工具将促进ML研发选项的多样性。

确定业务目标优先级；与战略业务关系合作，并成为ML第一

战略业务与企业驱动因素间存在乘数效应。

业务关系能够根据自身经验来提供出早期研发、私人测试及企业采用驱动因素的简介，同时能够与伙伴关系和共同营销提供出强大上市支持。

而初创企业更应该接受“没有经验压缩算法”的智慧，专注于业务目标，并依靠战略业务关系（从创业顾问到风险资本家，再到客户）来帮助其填补能力上差距，同时提供出合理指导和市场准入。这些联系能够助力初创企业更多地了解企业亟需解决的紧迫问题，以便其在行业中窥见趋势。

此外，了解接下来该推出什么技术也很重要。这些业务关系的存在能够使得初创企业更灵活、快速的根据需求进行扩展，并从长远考虑其产品路线图和客户体验。

建立初创公司是一件困难且谦逊的速成课程。从长远来看，成功是很难的。初创公司本质上是灵活，因此这类企业推出的技术堆栈更应该反映出这种敏捷性。实现将快速部署和实验全面灌输于开发中，对初创企业而言是一种反推力，助其更好的定性自身市场并进行规模竞争。

综上，“专注力、敏捷性和速度”将成为以ML为首识别核心IP，建立战略业务关系，助力初创企业快速、持续增长的市场持久力。