工程团队正在转向云来处理和存储越来越多的 EDA 数据,但是,虽然超大规模数据中心的计算资源几乎是无限的,但此举会增加成本,减慢数据访问速度,并引发对可持续性的新担忧。
对于复杂的芯片设计,云的弹性是一个巨大的好处。使用先进节点芯片和封装,需要处理的数据量呈爆炸式增长。如今,大约 45% 的先进节点芯片由拥有自己的云业务的大型系统公司设计,至少目前这为他们提供了上市时间优势。但是,随着越来越多的芯片制造商将埃级下调,以及异构集成成为主流,越来越多的芯片/小芯片公司将开始利用云中的设计工具,因为它消除了对昂贵工具和数据中心的前期投资。
但是,哪些数据在云中得到处理以及存储在何处,将取决于芯片制造商对云安全性的信任程度,以及究竟发送到那里进行处理的内容。许多芯片制造商很可能会使用混合方案,将最敏感的数据保留在本地,并在需要大量计算能力的地方利用云。然而,这远非最有效的方法。
“随着 AI 越来越多地融入设计流程,训练模型所需的数据量将继续增长,”Cadence 战略和新企业集团总监 Rob Knoth 说。“我们正在使用数百万到十亿规模的传感器、手机、相机和汽车。有 6G 无线收发器和中继器。这就是半导体设计过程中更智能的功耗优化流程可能产生巨大影响的地方。半导体在我们的社会中变得越来越普遍,这使得智能被投入到更多的这些应用中。它让我们的生活更轻松。但是,如果不点击一篇关于 AI 数据中心消耗太多电力的文章,你就不能不挥舞一只死猫。他们在说,'世界将被吸入训练功率效率的黑洞。半导体正变得越来越普遍,这意味着这里的数量级开始成倍增加。
自 2016 年以来,大型数据中心的功耗增加了 16% (CAGR),许多报告预测,随着大型语言模型的推出,这一数字将迅速增加。即使在发电量充足的地方,配电网也难以跟上步伐。Knoth 说:“如果你看看 AI 和超大规模企业因投资而未能实现可持续发展目标的后果,就需要讨论这个问题。
底线与可持续性
可持续性是科技界的一个流行词,开发 EDA 软件时的主要担忧之一是它在计算能力方面没有造成伤害。
“在我们开发自己的软件时,我看到了这一点,”Knoth 说。“对软件进行回归需要大量的计算能力,以确保如果这个测试用例提高了 10%,那么其他 100 个测试用例的结果如何?你必须确保软件越来越有效,但它也无害,因为它现在正在优化和创建如此多不同类型的半导体。
IC Manage 的联合创始人兼首席执行官 Dean Drako 认为,从宏观上看,与芯片的最终目的地相比,为 EDA 过程提供燃料所需的电量只是杯水车薪。任何减少计算的努力都是关于底线的,而不是为了实现更可持续实践的任何愿望。
“谁做大芯片设计?”德拉科说。“你必须以不同的方式看待他们每个人的潜在动机。他们都想赚钱。他们都必须设计芯片。他们用于设计芯片的功率可能是他们实际制造的芯片功率的 0.01%,那么你使用多少功率来设计芯片真的重要吗?看起来不像。
Synopsys 的产品营销经理 Jim Schultz 观察到,在 EDA 过程中存在可持续性问题,但与环境关系不大。相反,它是关于保留资源以加快运行时间,特别是当将计算分配给不同的机器可能会达到有限的回报点时。“你可以说,'嘿,有一个可持续性问题。您不想浪费资源和计算资源来获得 5% 的运行时间。这不值得。
方便的是,减少碳足迹和降低成本的努力本质上是相同的。“好消息是,他们非常一致,”Ansys 研究员 Bill Mullen 说。“使用更多的电力和更多的计算机是浪费的,而且会让你付出代价。每个人都被激励在他们的工作中更加高效。这在 EDA 中有着悠久的历史。我们所有的客户都希望我们优化我们的工具,以提高他们的效率。
本地数据与云
即使可持续性不一定是主要目标,但保持更高效的计算水平才是。对于大多数公司来说,这是一种有限的内部资源,并且在为项目分配时需要预先考虑。EDA 流程正在生成大量数据,这些数据需要存储在某个地方。但是,这些数据是在本地还是在云中进行分析和存储,与其说是磁盘空间不足,不如说是许多其他问题。
“当你有一个内部数据中心时,限制是相当困难的,”Mullen 说。“如果你想增加资源,通常需要几个月的时间来订购系统,安装它们并安装所有相关内容,所以你有一个硬性限制。如果公司必须在特定日期之前完成流片,他们将不得不在云上使用这些资源。限制不在于物理机的数量或可用的存储量。这是成本。您有一定的运营支出预算,您不能只花无限量的钱来引入。每个人都以这样或那样的方式受到限制。你只需要看看你的需求是什么,并做出正确的权衡。
一个优点,云支持突发计算等功能,在这种情况下,您需要在短时间内获得额外的资源。“它还提供了比本地某些类型更多的资源。您可能需要大量 GPU,而这些 GPU 在您自己的数据中心中是不切实际的,例如,它们可能在云中可用。这有很多因素,“Mullen 指出。
基于 Arm 的工程总监 Tim Thornton 表示,通过使用 Spot 资源而不是按需资源,可以更有效地管理成本。“灵活的规模和访问新计算硬件的好处值得拥有。虽然并非所有工作负载都能很好地映射到 Spot,但 Exostellar 等供应商的技术在 Spot 实例中提供了持久性,可以解决该使用案例。
另一方面,速度通常是任何项目的关键考虑因素。Mullen 说,在决定是否转向云方面,地理位置可以发挥同样大的作用。“您必须考虑运行该工作流程的频率。您是否必须将数据从一个位置移动到另一个位置?如果你把所有东西都放在一个站点上,把实施和分析放在一起,这通常比在全国范围内发送数 TB 的数据或类似的事情要好。
对 Drako 来说,关于是使用基于云的计算还是本地计算的决定只是 50 年前问题的最新版本,即使用当今的计算机来设计更复杂的计算机。该循环需要不断更换本地硬件,而这种成本可以通过转向云来避免。但这样做意味着在短期内增加您的成本,许多芯片制造商都选择退出这一成本。
“但你也会感到头疼,我们擅长运营数据中心吗?”德拉科说。“我们有合适的人吗?我们想做还是不想做?我们想从中得到什么?它有各种各样的问题,不要误会我的意思。您必须管理操作系统。你必须进行升级。您遇到了硬件故障。你必须让人们亲自做事。但归根结底,归根结底是成本和速度。
Schultz 提出了一种解决方案,他认为该解决方案提供了两全其美的解决方案,避免了来回发送 TB 级数据的痛苦,这可能会消耗运行时间,同时仍然允许设计人员获得从云中工作的好处。
“我打算做一个实施,我想把我的初始数据放在云中,我想在云中运行整个过程,”Schultz 解释说。“我不想在本地完成部分操作,然后再在云中完成部分操作,因为如果我只执行实际的实施,并且必须传输数 TB 的数据,您将需要等待所有这些数据都传输完毕。通常,我们要做的是利用计算机上的本地磁盘,甚至不想将关键数据存储在内部网络中。因此,如果我得到一台非常大的机器,我会利用它的临时磁盘空间作为内存存储。这将比通过互联网处理它要快得多。
虽然 AI 模型背后的数据中心消耗了大量计算,但 Mullen 认为机器学习的强大功能最终可以帮助降低 EDA 的计算需求,并且训练有初始成本,但可以收回的收益远不止于此。
“一些例子是,你使用 ML 来更优化如何划分问题,或者你的算法如何工作,或者你在某些设计上训练它,”他指出。“我们有热成像师的能力。我们可以使用 ML 模型更高效地计算温度,而不是使用传统方法详细计算 3D-IC 中的温度耗散方式。如果你有一个可推广的模型,那会非常有效。
Thornton 也赞同这种观点,他认为 AI 工具实际上可用于减少所需的计算量。“例如,通过了解哪些测试执行核心的某些部分,可以对回归套件进行优化,以实现所需的覆盖率级别,同时减少实现该级别所需的单个测试数量,”他说。
对 Schultz 来说,提高计算效率的关键在于适当的数据分析,他说这可以帮助单个工程师和管理人员。“您可能希望在您的流程中获得数据分析产品,因为随着芯片数量开始迅速增加,经验丰富的工程师数量却没有。您没有那么多经验丰富的工程师来处理那么多的芯片,因此由没有经验的工程师进行调试需要更长的时间。如果您想提高效率,使用数据分析可以帮助工程师快速发现他们可以改进的地方。它还可以帮助组织提高磁盘管理效率,因为他们可以制定数据保留策略。
结论
项目速度和预算限制推动了 EDA 提高效率的需求。本地和云存储都有其优点和缺点。选择用于项目的 None 可能是一个艰难的决定,需要考虑成本和速度要求。
对于该行业的一些人来说,还存在可持续性问题。电网很快就会被数据中心推到极限。虽然 EDA 过程只需要为 AI 模型提供动力所需的计算和电力的一小部分,但有些人认为这是一种生态和社会责任,也是推动更多创新解决方案的机会。但这与高入门成本相悖,无论是本地数据中心还是购买更多的云空间。
“很容易加入潮流或炒作周期,并害怕坐在谈判桌旁的成本,”Cadence 的 Knoth 说。“但真正优秀的工程和科学从未回避这种恐惧。这是关于真正努力解决它,并做好工作。然后我们就可以产生重大的积极影响。