面向AIGC类新型计算业务的算力网络挑战与设计

0 引言

2023年是人工智能（Artificial Intelligence，AI）大模型应用元年，多个维度的技术发展推动了人工智能生成内容（Artificial Intelligence Generated Content，AIGC）的产生，其在知识问答、翻译、摘要说明、内容创作等诸多应用中有着非凡的性能表现，成为数字经济时代的新引擎。目前，AIGC技术已经成为人工智能领域的热点话题，并延伸至多个应用领域，如智能家居、自动驾驶、智能医疗等。

(资料图片仅供参考)

当前，AI应用计算量呈几何级数增长，算法模型向巨量化发展，人工智能模型参数在过去十年增长了十万倍[1]。因此，AIGC类新型计算业务对算力和通信的要求非常高，需要相匹配的算力网络来支持其发展。随着数字化程度加快以及大模型对算力需求的不断提高，未来数字经济的发展将会越发依赖于算力网络，AIGC类新型业务与算力网络的结合将会创造出更加智能化、数字化和人性化的业务应用。本文将重点探讨面向AIGC类新型计算业务的算力网络挑战与设计，为相关领域的技术人员提出研究和发展方向的建议。未来，期待算力网络和AIGC有更加广泛和深入的应用，同时，需要关注技术发展中的风险和挑战，推动相关部门制定政策和采取措施，确保人工智能技术的发展能够更好地为人类社会服务。

1 AIGC类业务和算力网络的必要性

1.1 AIGC类业务的发展和应用

通用人工智能（Artificial General Intelligence，AGI）是指一种可以具备人类智能水平的人工智能系统。AGI的主要特点是可以通过学习、理解、推理和创造等方式，来处理各种复杂任务，包括语言理解、图像识别、自然语言处理（Natural Language Processing，NLP）等。而AIGC作为AGI发展的第一步，将人工智能、通信技术和云计算等技术进行融合，实现智能化的数据处理和分析，AIGC既是从内容生产者视角进行分类的一类内容，又是一种内容生产方式，还是用于内容自动化生成的一类技术集合[2]。虽然目前AGI技术还处于研究阶段，但是AIGC的相关应用随着大模型的出现实现了快速发展。

当前AIGC类业务的发展和应用已经非常广泛，包括音频、文本、图像、视频生成及图像、视频、文本间的跨模态生成，同时AIGC已经在许多实际应用中取得了显著成果，如文本生成、艺术创作、游戏开发等。许多公司和研究人员已经成功将AIGC技术应用于实际项目和产品。

其中较为著名的生成式预训练转换模型（Generative Pre-trained Transformer，GPT）主要基于三个技术：自然语言处理中基于注意力机制的序列到序列模型Transformer[3]；采用Prompt机制用于指导模型生成特定类型的输出；利用Fine-tune微调技术针对预训练模型通过少量的标记数据集，在新的任务或领域上训练模型来改进其性能。

以GPT[4]为例，2023年涌现了大量的大型语言模型（Large Language Models，LLMs）[5-6]和AIGC相关领域[7-8]的研究。以GPT-3、GPT-4为代表的超大规模预训练模型，以数据和算力优势取代了一些小型算法模型，展示了一条通向通用人工智能的可行路径[9]。表1列举了国内外主流AIGC大模型和应用概况。

表1 主流AIGC大模型和应用概况

AIGC大模型的集体涌现为在算力网络中部署AIGC相关应用的研究提供了方向和实践，同时也对业务的算力要求、数据安全以及隐私保护提出了挑战。总之，随着人工智能、物联网、云计算等技术的不断发展，AIGC技术的应用将会越来越广泛，将为各行各业带来更高效、安全、智能的服务。

1.2 AIGC类业务的特点

AIGC类业务通过使用具有大量算力的大模型，从海量数据中提取出有效信息，实现自动化的数据处理和决策，如图1所示。AIGC类业务具有以下特点。

图1 AIGC类业务流程

1.2.1 大量、多样的数据上传和下发

在AIGC类业务中，数据上传通常是指数据的采集和传输，包括对各类数据进行预处理和标注等操作。如来自传感器、监控设备、社交网络、移动设备等不同来源的结构化、非结构化和半结构化数据。数据需要进行清洗、转换和整合，以便进行深度学习和机器学习算法的应用。由于传输的数据量通常很庞大，需要高带宽和低延迟的网络来支持。数据下发是指将训练好的模型、算法和结果传输回客户端或其他系统，随着数据规模的增大和多样化，处理数据的能力也需要不断提升。

1.2.2 不断扩大的模型需要大量算力来支持

在AIGC领域应用的大模型通常由多层级的复杂结构组成，需要处理数以百万计的参数和变量，这些模型和算法通常需要大量的计算资源来进行训练和推理。为了处理海量的数据和复杂的模型，需要使用并行计算和分布式计算技术，以利用多个计算机或处理器来同时处理数据。此方式可以显著提高计算效率，缩短训练模型的训练时间，并帮助解决计算能力的瓶颈问题。同时，也需要高效的算法设计和优化，以减少计算和存储的成本，提高系统的可扩展性和稳定性。因此，对于AIGC类业务，大量算力是其发展和应用的基础和核心，对算力的需求也是其面临的主要挑战之一。

在普通的计算任务和业务中，传统的计算方法如边缘计算和云计算具有一定的局限性，无法完全满足AIGC类业务的需求。例如在解决数据延迟问题上，云计算和边缘计算在处理大量的AIGC类业务数据时无法保证低延迟；在传输带宽方面，云计算和边缘计算通常依赖于网络连接进行数据传输，而网络带宽有限，尤其是在边缘计算中，边缘设备通常只有较低的带宽和存储能力，难以处理大量的数据传输任务；在数据隐私与安全方面，模型的私有化以及AIGC类业务中的数据往往包含敏感信息，传输到数据中心或边缘设备进行处理时增加了数据被窃取或篡改的风险。

云计算和边缘计算在许多常见的计算任务和业务中发挥着重要作用。然而，对于一些复杂和大规模的计算任务，传统的计算方式受限于计算能力、数据处理能力和模型表达能力等。因此，针对这些场景，引入人工智能技术配合算力网络的交易分发，基于AIGC类业务的算网架构可以提供更高效、准确和自动化的解决方案。

综上所述，AIGC类业务有大量数据需要上传和下发，大模型也需要大量算力。传统的计算方法已经无法满足AIGC类业务的需求，需要一种高效的数据传输和处理方法来支持业务的快速发展，而算力网络正是具备强大的算力、数据处理和自动化的工具，同时具有高度可扩展、可靠和弹性的系统设计能力。

算力网络作为构建AIGC落地的基础设施，将云—边—端三层算力结构组织调度成具有高效和安全性能的网络，共同完成大规模计算任务。算力网络的主要作用是提供分布式计算服务，可以处理各种复杂计算任务，例如人工智能、机器学习和大数据分析等。

在算力网络中，为了解决数据上传和下发以及大模型的算力问题，AIGC类业务通常采用分布式系统和云—边—端协同计算等技术来支持数据的高效传输和处理。例如，通过分布式存储和计算等技术，可以将数据和计算任务分散到多台计算机上，从而提高数据处理和模型训练的效率。同时，边、云服务器也提供了丰富的计算资源和服务，包括高速网络、高性能计算等，可以提高数据处理和模型训练的效率，进而满足AIGC类业务的需要。

2 承载AIGC类业务的算力网络架构和设计

传统的算力网络从逻辑功能上可分为算力服务层、算网管理层、算力资源层、算力路由层和网络资源层。其中，算力路由层包含控制面和转发面，以实现泛在计算和服务的感知、动态分布计算与存储资源的互联。如何将遍布在云—边—端泛在部署的异构多样算力资源以及繁多碎片化AIGC类业务间进行有效协同，驱使业务应用能平滑地在各级算力资源上进行流转运行，充分利用巨量算力资源，是承载AIGC类业务算力网络架构设计的关键点[10]。与传统的算力网络架构设计相比，承载AIGC类业务的算力网络架构把网络资源层和算力资源层合并为网络基础设施层，以实现由网络资源、计算资源分治管理到算网统一控制和管理；由网络调度过渡到网络和计算联合调度，由网络的度量过渡到网元和算力节点的互联、度量和建模；AIGC需要大规模的计算资源，在算网融合层设计时通过分布式服务和存储以提高大模型的训练效率。

AIGC类业务通常需要大规模的计算资源来支持其复杂的计算需求[11]。AIGC类业务的流程是用户上传原始数据任务（包括文本、图像、视频）至算力网络的算力节点，由算力提供商接受任务后利用模型训练生成内容，其中模型包括自回归模型、生成对抗网络、变分自动编码器、基于流的生成模型、扩散模型等大模型；在交易达成后，AIGC类服务提供商将生成的内容分发给用户。

承载AIGC类业务的算力网络架构和设计需要充分考虑业务需求和技术实现，提供高性能、高可靠性、安全的计算资源支持。如图2所示，新型算力网络架构可分为网络基础设施层、算网融合层和应用服务层。

图2 面向AIGC类新型算力网络架构设计

2.1 网络基础设施层

网络基础设施层是新型算力网络架构的基础底座，可构建多层次的异构算力网络，包括云算力节点、边缘算力节点、端侧算力节点等异构多层次算力节点构成的算力资源池。其中网络基础设施包括5G/超5代移动通信系统（B5G）接入网络、确定性边缘网络、确定性广域网络、确定性数据中心网络等。

2.2 算网融合层

算网融合层是新型算力网络架构的中枢系统，主要实现算网状态感知、算网资源调度以及算网智能决策三大功能。算网状态感知方面，在面向AIGC的算力网络设计中，通过对计算与网络资源状态信息的采集或监测，实现对边缘计算节点和网络设备运行状态的精准感知，进而为计算任务的调度决策提供支撑，同时为边缘计算节点和网络设备的运营维护提供数据支撑。算网资源调度方面，通过对计算与网络资源状态信息的采集、处理和分析，结合机器学习相关算法，实现对边缘计算节点算力状况以及网络状况的预测，进而提升对计算与网络资源状态的感知能力，实现资源的精细化分配、计算任务的实时调度。算网智能决策方面，基于算网状态智能感知，算力网络中进行自动化分析建模和决策并将决策结果反馈至算力网络控制系统，提供智能化、自动化决策治理能力，实现算网资源的智能决策。

2.3 应用服务层

应用服务层主要包括智能运维、可信交易、开发支撑、综合管控四大功能，其中AIGC类业务通过算力网络交易平台进行交易。为了保证安全性和可靠性，交易采用区块链分布式账本记账的方式，以链式数据结构存储交易信息，并将信息保存在链上，确保任何数据都是真实且不可篡改的。

3 挑战与展望

在面向AIGC类新型计算业务的算力网络设计中，AIGC类新型计算业务对算力网络具有高计算、高带宽、高存储、低延迟、可靠性等要求，而算力网络在面向AIGC类新型计算业务中的瓶颈和挑战包括：计算资源的分布分散、资源调度的复杂度较高、数据传输存在带宽限制、保障数据隐私和安全等。其中调整卸载调度算法和路由策略、保障安全和优化服务交易是三大关键问题。

在调整卸载调度算法和路由策略方面，由于AIGC类业务的特殊性，传统的调度算法和路由策略不再适用。由于大模型需要大量算力支持，选择合适的节点和路径至关重要，以确保业务能够高效地运行并最大化利用计算资源。这涉及到算力网络中的资源分配、协调和管理，需要设计新的算法和协议来解决上述问题。根据具体的应用场景和需求，提出以下3项方案。

·基于网络拓扑结构的静态调度方案：根据AIGC类业务和网络拓扑结构的不同，将计算任务调度到不同的节点上执行，以实现负载均衡和最小化数据传输成本。

·基于机器学习算法的动态调度方案：利用机器学习算法对计算任务进行预测，实现任务的动态调度和资源的自适应分配，以提高整个系统的性能和效率。

·采用分层架构的路由方案：将网络按照层次结构划分，根据不同的层次对数据进行路由转发处理，实现低延迟和高吞吐量的数据传输。

在保障安全方面，AIGC类业务的大规模数据上传和下发以及大模型的计算过程可能涉及机密数据和敏感信息。因此，保障数据的安全和隐私至关重要。此外，由于AIGC类业务对算力网络的高要求，攻击者可能会利用算力网络中的弱点来发动攻击，如分布式拒绝服务攻击（Distributed Denial of Service，DDoS）和恶意节点攻击。因此，需要设计和实现高效的安全机制来保护算力网络和AIGC类业务的安全。

在优化服务交易方面，由于AIGC类业务的特殊性质和大规模需求，交易模式和机制需要重新设计和优化。需要实现高效的服务匹配和交易，并确保交易的公正性和透明性。同时需要建立高效的自动化服务管理和监控机制，以提高服务的质量和可靠性。

通过设计智能合约结合区块链的算力交易方案，应用区块链去中心化以及分布式数据同步及存储的技术优势，将算力交易分布在各个算力资源节点。为确保交易的安全可信，算力需求方与资源提供方都要向第三方的数字证书签发机构申请数字证书和私钥，用于对交易结果进行签名确认，之后才能进行算力交易，如图3所示。

图3 基于区块链智能合约的算力交易模型

因此，在算力网络与AIGC结合的过程中，通过跨学科的研究和合作，利用机器学习、区块链等先进技术，可以创新地调整卸载调度算法和路由策略用于保障安全和优化服务，确保算力网络和AIGC类业务的高效、安全和可靠运行。

4 结束语

本文面向AIGC类新型计算业务的算力网络设计与挑战，提出AIGC类业务引入算力网络的必要性，设计未来承载AIGC类业务的算力网络架构，讨论了目前遇到的挑战和未来的发展趋势。未来，业界将紧跟算力网络技术和AIGC类业务及其应用领域的需求，持续关注相关的算力网络设计与实现方案。