本文发自“ZDNet”,原题为“Microsoft goes public with details on its 'Singularity' AI infrastructure service”,作者 Mary Jo Foley,经朋湖网作者王姿蝶编译整理,供业内参考。

当下,微软的Azure及研究团队正在合作构建新AI基础设施服务——“Singularity”。Singularity团队在努力创建微软此前在其团队部分职位中公布所描述的“将成为微软内部、外部人工智能主要驱动力的全新人工智能服务平台。”

从事该项目的人员发表出一篇题为“Singularity: Planet-Scale, Preemptible and Elastic Sc heduling of AI Workloads”的论文中,对Singularity工作的部分技术细节进行了描述。

据了解,Singularity服务旨在为数据科学家及AI从业者提供专为AI构建的分布式基础架构服务构建、扩展、试验和迭代其模型的方法。该论文构建的作者包括Azure首席技术官Mark Russinovich;合作伙伴架构师 Rimma Nehme,Rimma Nehme曾在 Azure Cosmos DB 工作,直到2019年转到Azure从事AI和深度学习工作;以及技术研究员 Dharma Shukla。

论文表示,Singularity的核心为一项新颖的、具备工作负载感知的调度程序,能够不着痕迹的抢占并提升扩展深度学习工作负载弹性能力,从而达到不影响正确性或性能的情况下在全球加速器(例如GPU、FPGA)中提高利用率。

此前,微软官员曾对FPGA或现场可编程门阵列作为服务提供给客户的计划进行探讨。2018年,微软公开表示,该服务旨在Azure中提供快速AI处理“Project Brainwave”工作,并对其在云端提供出由Brainwave提供支持的Azure机器学习硬件加速模型的预览,即,向客户提供用于AI工作负载的FPGA处理的第一步。 笔者猜想,Singularity是在将Brainwave转变为商业服务的下一个阶段,并对微软提出疑问,希望获知答案。

2019 年,微软在OpenAI上投资了10亿美元,一年后官方宣布,他们已经与OpenAI建立合作并为其OpenAI打造出强大的公开记录超级计算机。

尽管微软打造的AI超级计算机专为OpenAI打造,但微软官员始终表示,他们计划通过Azure AI服务及GitHub为公司提供大型AI模型和训练优化工具。

微软还在其“Azure AI”旗帜下为不需要专用超级计算机的客户提供各种加速器和服务。2021 年 11 月,微软宣布将在Azure中使用80GB NVIDIA A100 GPU 扩展其AI超级计算机阵容。微软长期观察者或许还留有印象,此前,微软曾将Singularity 代号用于另一微软研究项目上,而Singularity是一个微内核操作系统以及一组完全以托管代码开发的相关工具和库。

值得一提的是,Singularity并非基于Windows,它是作为概念验证从头开始编写的。

从Singularity最终催生、影响微软的其余几项操作系统研究项目来看,其中包括Barrelfish、Helios、Midori 和 Drawbridge。并且,更值得注意的是,微软并不是唯一一家试图在内部和客户之间提供人工智能超级计算功能的科技公司。Meta 也在做同样的事情,这其实是毋庸置疑的,比较它已将其工作定位为解锁元界的关键。