现有的闪存存储耗电且浪费数据中心性能,因为它的数据分配方法植根于旋转磁盘硬盘驱动器及其固定块模式的遥远过去。解决方案是以键值格式写入数据,并省去块寻址中间人。
这是硅谷初创公司QiStor的观点,该公司计划将定制芯片上的存储软件推向市场,该芯片可以加速键值格式的读取和写入。
键值是一种普遍的写入数据方式。在键值中,键是变量的名称,顾名思义,值就是它的值。键和值可以在特定限制内为任何长度。它们可以是不同的数据类型,例如数字、字符、甚至图像或其他对象。它们也可以嵌套,因此一个键的值可能是另一个键,具有相关的值。
键值作为一种数据格式被广泛使用,在 JSON 格式中找到,在 Kubernetes 的 etcd 数据存储中找到,在 Javascript 和 Python 编程语言中作为数据类型等,并且是 NoSQL 数据库的基础。
QiStor 所解决的是一种新兴趋势,即数据存储直接以键值格式写入和读取。
造成这种情况的一个重要因素是,文件系统和数据库与存储硬件通信的现有方式通常效率低下。在现有系统中,数据通常被分配给媒体上的 512kb 块。文件系统必须在该物理层与用户和应用程序看到的数据之间进行转换。这会带来处理开销。
此外,对于闪存存储,当数据在介质上写入、优化、移动等时,必须将其擦除并准备好重新使用。这也(即垃圾回收)会造成效率低下,因为数据会被擦除和重写。
QiStor 首席执行官 Andy Tomlin 表示:“我们已经取得了成果,但存在很多效率低下的问题,这些等同于容量、性能和功率的浪费。最佳解决方案是什么?空间的分配和跟踪应该在一个地方、最低级别和性能最佳的硬件上进行。
“所以,我们认为解决方案是键值。它提供了一个抽象,该抽象是用户定义的引用。它不是定义它的设备。还有其他方法,但键值是我们想要存储的信息最简单的抽象。在大多数数据库中,底层是键值。
QiStor 热衷于强调的背景故事是,为数据中心供电的问题日益严重,而 AI 使用的增加加剧了这个问题。
这一背景包括数据中心使用全球1%至2%的电力,数据存储消耗其中的20%至25%。与此同时,根据世界经济论坛(World Economic Forum)的数据,维持人工智能增长所需的计算能力大约每100天翻一番。
从这一点来看,Tomlin表示,关键需求越来越可能是数据中心硬件从CPU卸载处理。使用 GPU 作为硬件加速是典型的,但也有 DPU、网络加速等在使用中。
第二个因素是向量数据库用于人工智能,Tomlin表示,键值数据存储是关键基础。
QiStor 声称通过优化读/写以及减少或消除垃圾收集等方式获得了 10 到 100 倍的加速。但Tomlin说,QiStor目前距离能够提供产品还有一年的时间,并补充说:“我们已经构建了很多核心技术,现在将构建存储引擎。
它的计划是开发其软件,并通过FPGA加速芯片提供它,要么通过第三方基于云的服务,要么客户可以在自己的基础设施中进行规格配置。
“例如,客户会购买具有键值硬件加速功能的云数据库服务,或者他们会购买自己的堆栈并提供键值加速,”Tomlin说。
QiStor 将提供的功能与具有键值而不是块寻址的闪存驱动器不同,例如 NVMe KV 标准。
在谈到潜在客户的用例时,Tomlin说:“对于拥有大型数据集的客户来说,这很有趣,所以不是那些适合内存的客户。我们说的是 1PB 或更多,但最小不低于 100TB。就工作负载而言,我们谈论的是 Web 应用程序、分析、AI 以及任何需要性能和大量存储的东西。
Tomlin补充道:“如果客户关心它在多少台服务器上运行键值,我们可能会很有趣。一些客户运行 10 或 1,000 台运行键值的服务器......整个部门都致力于此。数据库市场规模为1000亿美元,其中很大一部分是键值。