IBM 通过将创新的存储规模技术集成到 AI 模型训练中,在人工智能 (AI) 领域取得了重大进展。这一尖端发展伴随着 IBM 的 Vela 集群的推出,该集群专为提高 AI 训练任务的效率和速度而设计。Vela 基础设施支持 IBM 最新的 AI 工作室 watsonx.ai,该工作室于 2023 年 7 月推出。这种基础设施的复杂性不仅有利于公司的人工智能计划,而且为行业如何利用先进的存储系统执行计算任务设定了基准。
Storage Scale 作为并行文件系统运行,可有效地充当对象存储和图形处理单元 (GPU) 之间的缓存。这种架构最大限度地减少了数据输入/输出 (I/O) 瓶颈,确保 GPU 在与 AI 训练相关的繁重工作负载中保持活动和生产力。具体来说,当需要加载数据进行处理时,与传统的存储选项相比,Storage Scale可以显著加快传输速度,使其成为Vela系统的关键组件。
为 Vela 提供支持的基础设施包括一个 CPU/GPU 服务器网络,这些服务器共同托管 IBM Cloud 中的虚拟机。该系统中的每个节点都配备了强大的处理能力,包括 Intel 的 Xeon 可扩展处理器和 NVIDIA 的 A100 GPU。这种强大的配置与高速网络接口相辅相成,可促进节点之间的快速通信,确保高效的数据传输并最大限度地减少操作期间的延迟。
数据管理对于 AI 训练过程至关重要,特别是考虑到通常涉及的大量数据。在 Vela 的设置中,对象存储充当训练数据的主要存储库。然而,传统的对象存储在处理读取和写入任务时可能会很慢。IBM 的工程师认识到了这些缺点,因此引入了 Storage Scale 作为中介缓存解决方案。这种设计选择允许更快地访问训练数据,同时还可以加快模型检查点的保存,这对于在漫长的训练会话中保持 AI 模型的状态至关重要。
根据一篇详细介绍Vela架构及其应用的论文中分享的见解,Scale文件系统实现了令人印象深刻的性能指标。例如,与传统的网络文件系统 (NFS) 设置相比,它的读取带宽是其近 40 倍。数据检索速度的这种显着提高从字面上彻底改变了 AI 模型访问和利用数据的方式,大大减少了训练迭代所需的时间。
此外,在 Vela 中实施分解存储模型(其特点是其专用存储集群与 IBM 的云虚拟服务器实例一起运行)进一步优化了系统。每个虚拟服务器实例都与高容量虚拟块存储卷配对,可确保密集的 AI 训练工作负载所需的高吞吐量。这种巧妙的设计有助于计算和存储资源的独立扩展,最终为用户提供适应不断变化的工作负载的灵活性。
Vela基础设施的一个显著特点是其活动文件管理(AFM)技术。AFM 将文件集与对象存储桶无缝集成,从而可以仅在需要时将数据引入文件系统。这种按需数据访问可确保资源得到有效利用,这在超并发环境中尤为重要,因为在超并发环境中,数百甚至数千个 AI 训练作业可能会同时启动。
在人工智能模型开发的更广泛背景下,IBM的研究结果还凸显了企业在采用人工智能技术时所面临的挑战。根据 IBM 商业价值研究所最近的一份报告,企业广泛采用生成式 AI 的一个重大障碍是部署和优化 AI 模型所涉及的复杂性。
该报告发现,目前平均每个组织都使用大约 11 种不同的 AI 模型进行运营,预计未来三年内将大幅增加高达 50%。成本壁垒仍然是一个突出的挑战——63% 的受访高管指出,模型费用是采用生成式 AI 的主要障碍。此外,58%的人对有效利用这些模型所涉及的复杂性表示担忧。
IBM Consulting 的高级合伙人 Shobhit Varshney 强调,企业需要采用细致入微的方法来部署 AI 模型。通过利用为特定任务量身定制的模型,组织可以实现最佳性能。Varshney 阐明,企业应该考虑更大、更全面的模型来执行需要更高准确性的复杂任务,同时将利基模型用于更专业的应用程序。这种战略多样性可以显著提高人工智能实施的成本效益和性能。
IBM报告的另一个核心发现表明,在部署生成式AI解决方案时,企业领导者越来越倾向于使用开放模型,而不是封闭的替代方案。开放模型,例如 Meta 的 Llama 3.1 和 Mistral 的 Large 2,由于其透明度和对特定业务需求的适应性,越来越被视为更可取。Varshney 强调,开放模型为公司提供了丰富的社区支持,有助于强化 AI 系统以应对潜在挑战,同时也提供了定制的机会。
总体而言,IBM 的 Vela 基础设施与其突破性的存储规模技术交织在一起,标志着 AI 模型训练的激动人心的演变。这些发展不仅代表了技术上的演变;当他们认识到人工智能技术的变革潜力时,他们谈到了企业内部的文化转变。通过利用高级存储解决方案提供的功能,公司已准备好优化其 AI 业务流程并实现新发现的效率。随着越来越多的组织采用类似的策略,企业人工智能的未来似乎不仅是光明的,而且是严格的数据驱动和创新。