IBM 使用其 watsonx.data 和 Storage Scale 产品,将数据湖仓一体和并行文件系统功能相结合,提供可扩展的、基于机器学习的 AI 处理和分析数据存储平台。
IBM 声称,这通过 GDS(GPU 直接存储)和 Nvidia 提供了极致的 AI 性能,可以更快地训练生成式 AI 模型。支持多协议,可实现更简单的工作流程,为分析和 AI 提供统一的数据平台,并且该系统支持使用客户的专有数据进行检索增强生成 (RAG)。
Big Blue 的 watsonx.data 是一个数据湖仓一体。它将数据湖的功能与数据仓库的性能相结合,数据湖基于使用商用服务器的横向扩展架构,能够存储和处理大量结构化和非结构化数据。它支持 Apache Iceberg Open Table 格式,使不同的处理引擎能够同时访问相同的数据。
Storage Scale 是一种并行和横向扩展文件系统,最初称为 GPFS。它被用作 watson.x.data 下的存储层,在文件访问覆盖层下提供对象存储工具。V5.2.1 Storage Scale 具有非容器化的高性能 S3 协议服务,可提供此功能。
如何组合在一起
添加了 B&F 黄框元素的 IBM 图表列出了软件组件:
有单独的、分解的计算层和存储层。对于计算,watsonx.data 应用程序(包括 Presto 和 Spark)使用 Red Hat OpenShift 容器集群基础。Presto 使用分布式 SQL 查询引擎提供数据湖分析,而 Spark 是内存中的大数据处理和分析资源。
该层还有一个 Hive Metastore,提供共享元数据服务和 Milvus 向量数据库服务。Milvus 用于通过访问驻留在 Storage Scale 上的客户可能较大的数据集来启用 RAG。
单独的存储基础设施中有三个主要元素:保存数据的 Storage Scale 文件系统集群;用于存储抽象和加速的主动文件管理 (AFM);以及用于高性能对象访问的 S3 数据访问协议服务。
S3 服务将对象存储桶公开给 watsonx.data,以便附加到查询引擎(如 Presto 或 Spark)。S3 对象映射到文件,存储桶映射到 Storage Scale 中的目录,反之亦然。
S3 存储桶可以是存储层的本地存储桶,也可以由 Storage Scale 从外部对象存储缓存(从而加速),这些外部对象存储可能分布在全球各种云、数据中心和位置。在任何一种情况下,多个 Spark 和 Presto 引擎实例都使用 S3 协议连接到存储规模层以访问存储桶。
AFM 具有本地缓存功能,并支持跨集群共享数据,在文件集级别虚拟化远程 S3 存储桶。它跨 Storage Scale 集群实现全局命名空间,并且还可以在此命名空间中包含 NFS 数据源。远程 S3 存储桶显示为 Storage Scale 文件系统下公共存储命名空间下的本地存储桶。这样就不需要数据副本。
远程 S3 存储桶的虚拟化依赖于基于 NooBaa 开源软件的 Storage Scale 高性能 S3。这是使用 X86 服务器和存储的对象存储软件,以类似 S3 的云服务的形式呈现。Noobaa 于 2018 年被 Red Hat 收购,跨混合多云环境抽象化存储基础设施。它还提供数据存储服务管理。Red Hat 将其作为其 OpenShift Data Foundation (ODF) 产品集的一部分。IBM 于 2019 年收购了 Red Hat,并将 ODF 添加到其当时的 Spectrum Fusion 产品(现为 Storage Fusion)中,以及现有的 Spectrum Scale 和 Spectrum Protect 数据保护容器化版本。
现在,NooBaa 是一个可定制的对象动态数据网关,在任何存储资源(包括 S3、GCS、Azure Blob、文件系统等)上提供数据服务,例如缓存、分层、镜像、重复数据删除、加密和压缩。
Storage Scale 的高性能对象 S3 服务针对多协议数据访问进行了优化。它在 Storage Scale 中取代了早期基于 Swift 的对象 S3 和容器化 S3 服务实现。Storage Scale 中的集群导出服务 (CES) 设施通过 CES 节点管理高可用性。
多层
IBM 表示,Storage Scale 存储可以有多个性能层,以优化成本和性能。可以有一个用于热数据的高性能层,以及用于长期存储和存档的经济高效的层甚至磁带,以及跨层的自动策略驱动放置,使分层无缝且对应用程序透明。
这个组合的 watsonx.data 和 Storage Scale 系统提供了一个统一但分解的计算和存储平台,可以在其上运行 AI 应用程序以进行训练和推理。客户可能会非常重视这一点,因为 IBM 是所需软件的单一来源。我们已经介绍了 Dell、HPE、Lenovo、NetApp、MinIO 和 Pure 的其他 AI 数据平台方法,其中 VAST Data 正在准备自己的数据引擎产品。
watsonx.data 和 Storage Scale AI 捆绑包在 IBM 红皮书中进行了介绍,该红皮书“展示了 IBM watsonx.data 应用程序如何从 IBM Storage Scale 提供的企业存储特性和功能中受益”。