电子行业专题报告:AI硬件全景图
(报告出品方:广发证券)
一、需求测算:ChatGPT 开启 AI 奇点,AI 服务器需求 大幅提升
(一)GPT 大模型和应用迭代速度加快,日新月异百花齐放
ChatGPT是美国OpenAI公司于2022年11月30日发布的基于GPT-3.5大模型的聊天 机器人程序,采用自然语言技术,能完成撰写邮件、代码、翻译等任务,开启“AI的 iPhone时刻”。2023年1月末,ChatGPT的月活用户突破1亿,成为史上增长最快的 消费者应用。2月7日,谷歌发布对话型AI系统Bard迎战ChatGPT。2月8日,微软将 ChatGPT接入Bing搜索。3月15日,OpenAI发布了GPT-4,支持多模态输入。3月16 日,微软发布了植入GPT-4技术的Copilot,AI助力Office软件生产力大提升。3月16 日,百度发布了大模型文心一言,并启动内测。3月20日,阿里达摩院上线“文本生成 视频大模型”,目前仅支持英文输入。2023年3月24日,OpenAI发布ChatGPT Plugin, 支持第三方插件接入,并同时开源知识库检索插件源代码,“AI的App Store时刻” 到来。3月27日,百度推出“文心千帆”大模型平台,面向客户提供企业级大语言模 型服务。3月28日,腾讯AI Lab发布自研3D游戏场景自动生成解决方案,使用AIGC 技术。
AI模型的训练和推理:(1)训练是指,通过对海量数据的学习,神经网络找到海量 数据集中的给定的输入与结果之间的关系(搭建模型),并最终确定决定该关系的 变量中所有参数的权重(Weights)和偏差(Bias)。(2)推理是指,通过使用训练 后的模型,把神经网络在训练中学习到的能力(搭建的模型)应用到之后工作中去, 例如图片识别、数据分析等。 总结来看,生成一个大模型即为训练的过程,而将搭建好的模型于实际应用中使用, 则为推理过程。
在AIGC大模型的训练和推理过程中,需要大量的高性能计算(HPC)算力支持。
(二)模型训练&推理算力需求测算
(1)AI大模型在训练阶段算力需求测算。 我们以参考NVIDIA发表的文章《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》中对不同参数GPT模型算力需求的计算方法及 NVIDIA A100在模型训练过程的参数,对以GPT-3.5 175B为代表的大模型的训练算 力需求进行测算,测算主要基于以下关键假设:①考虑到大模型训练的时间要求, 假设模型单次训练时间为30天,即每年可进行约12次训练;②训练阶段每个A100吞 吐效率为48%。此外,我们假设每台AI服务器均配有8张A100。 由此测算,单个GPT-3.5 175B参数量AI大模型训练而新增的NVIDIA A100需求空间 为1080个,新增的AI服务器需求为135台。
考虑到各大互联网巨头正在/计划训练的模型参数量仍在持续增加,未来模型训练参 数量可能达到万亿级别;同时越来越多的互联网公司加入大模型训练的阵营;我们基于以下关键假设,对用于大模型训练的NVIDIA A100、AI服务器的需求做关于模 型参数、模型训练个数的敏感型分析。①假设模型单次训练时间为30天;②假设训 练阶段每个A100吞吐效率为48~52%。
(2)AI大模型在推理阶段算力需求测算。 ChatGPT活跃用户数量迅速增加、BING搜索引擎开始接入ChatGPT、百度发布文 心一言并启动内测,以GPT为代表的大语言AI模型在文字推理/生成领域的应用加 速落地;此外,基于GPT的midjourney展现出较强的图片创作能力,Adobe也发布 了可生成图片、视频、声音等内容的模型Firefly,AI模型在多媒体领域的推理/生成 应用也在快速发展。考虑到AI模型在文字生成领域应用落地进展较快,我们对这一 部分推理算力需求进行测算,基于以下关键假设:①参考谷歌月均搜索次数,假设 一个谷歌级应用每日的搜索次数为30亿次;并假设30亿次问答在每日24小时中均 匀分布;②假设单次问答总字数为1850字。 由此测算,单个应用GPT-3.5 175B模型的谷歌级文字推理应用新增的NVIDIA A100需求空间为72万个,新增的AI服务器需求为9万台。
(三)算力需求推动 AI 服务器增长,OMD 厂商及相关硬件步入黄金时代
AIGC大幅提升HPC算力需求,推动AI服务器增长。AIGC大模型的训练和推理需要 大量的高性能计算(HPC)算力支持,对AI服务器需求提升。据Trendforce数据, 预估2022年搭载GPGPU的AI服务器年出货量占整体服务器比重近1%,即约14万 台。预计2023年出货量年成长可达8%,2022~2026年CAGR达10.8%。
根据上文对训练&推理算力需求测算,并以Trend Force数据预估2022年搭载 GPGPU的AI服务器出货量14万台为基数,测算训练侧与推理侧AI服务器需求对服 务器出货量的拉动。100个175B训练模型对AI服务器出货量的拉动为9.6%,10个 使用GPT-3.5 175B模型的谷歌级推理应用对全球AI服务器出货量的拉动为643%。
ODM厂商重要性日益提升。伴随着AI硬件市场迅速成长,相关服务器ODM厂商重要 性日益凸显。英伟达于2017年启动全球顶尖ODM伙伴合作计划,与包括鸿海(富士 康)在内的中国台湾服务器设计生产大厂成为合作伙伴,加速应用于AI的各种需求。 通过HGX合作伙伴计划,英伟达将提供所有ODM厂商早期使用HGX参考架构、GPU 运算技术以及设计准则等资源。利用HGX作为此领域的切入点,ODM伙伴厂商能与 英伟达合作加快设计,并针对超大规模数据中心推出各种类型的认证GPU加速系统。 英伟达工程师将通过此计划与ODM厂商密切合作,协助缩短从设计到产品部署上市 的进程。
ODM厂商受益于AI服务器量价齐升,成长空间广阔。依据上文所述,在ChatGPT等 新兴AI产品对算力、带宽、GPU、高容量储存、先进散热与节能需求激增的背景下, 云计算基础设施作为算力AI服务资源,其重要性日益突显。在出货量将迎来显著提 升。而AI服务器内部除了2颗CPU外,一般还要配备4/8颗GPGPU以及一系列的相关 配套芯片,AI训练服务器因为其对算力需求更高,单机价格较普通服务器将有较大 的提升,通用服务器价格一般为几千美金/台,而主流AI服务器价格多在10-15万美金/台。AI服务器与通用服务 器不同,除了2颗CPU外,一般还要配备4/8颗GPGPU。。 根据counterpoint的数据,2022年全球服务器市场的收入同比增长17%,达1117亿美 元。从市场份额的角度来看,2022年ODM的增长速度比2021年的整体市场高3个百 分点,其中工业富联(Foxconn)在ODM厂商中占比最高,占比超过13%,表明转 向ODM Direct作为大规模数据中心部署硬件选择这一趋势越发明显。
随“算力革命”的加速爆发,在算力需求增长的背景下,作为占比最高的ODM企业, 工业富联将依托在云服务器、高性能服务器、AI服务器、边缘服务器及云储存设备等 领域的技术和产品积累,以及所拥有的全球顶尖客户群和海量生产数据,深化在算 力市场的布局,有望获取更多的AI服务器需求,加速实现价值释放。
2017年,英伟达与微软和鸿佰科技(富士康旗下公司)共同发布第一代HGX-1系 统,搭载八颗Tesla P100 GPU以实现高效AI计算功能。在此之后,公司随英伟达 GPU产品升级,持续对HGX系统升级,陆续推出HGX3/HGX4系列产品,其中 HGX4运算能力达到HGX1的32倍,可支持高效的平行运算能力,助力行业迎接AI 带来的时代改变。
AI服务器较内部构造更为复杂,AI服务器内部产品市场空间广阔。以英伟达DGX A100为例,其内部包含了8颗A100 GPU、2个64核AMD Rome CPU、2TB RAM、 30 TB Gen4 NVME SSD、6个NVIDIA NVSwitch以及10个NVIDIA Connext-7 200Gb/s网卡。除ODM厂商受益于服务器AI升级,成长空间广阔外,AI服务器内部 的算力芯片(GPU等)、连接产品(光模块、PCIe retimer、PCB等)、存储芯片 (DRAM、NAND、HBM等)市场规模都有望迎来显著提升。后文中我们将分别对 服务器中算、连、存三块核心产品进行分析,并对下游应用领域前景进行展望。
二、算力芯片:AI 服务器硬件成本的主要构成,海内外 大厂积极布局
(一)算力芯片是处理训练与推理的核心
算力芯片是AI服务器中处理训练与推理的核心。在模型训练和推理的过程中需要大 量的计算,其本质是在网络互联层中将大矩阵输入数据和权重相乘,因此主要的计 算方式为矩阵计算。在矩阵计算中,每个计算都是独立于其他计算的,因此可以通 过并行计算的方法来对计算过程进行加速。由于算力芯片相比于CPU拥有更多独立 核心,因此深度学习和神经网络模型在算力芯片的加持下,采用高度并行的方式进 行计算,可更高效地完成计算任务。 从技术架构来看,算力芯片主要分为GPU、FPGA、ASIC三大类。其中,GPU是较 为成熟的通用型人工智能芯片,而FPGA和ASIC则是针对人工智能需求特征的半定 制和全定制芯片。
英伟达引领行业技术升级。NVIDIA是GPU的龙头企业,针对高性能计算,英伟达从 2016年开始,陆续推出了Pascal、Volta、Turing、Ampere、Hopper五个平台架构。 其GPGPU去掉或减弱了GPU的图形显示部分能力,将其余部分全部投入与图形处 理无关的通用计算。随着架构持续迭代升级,其算力芯片产品在支持的数据类型、 计算能力以及互联带宽等核心参数均有显著提升,对AIGC的发展起到了关键的推动 作用。 英伟达于2020年和2022年相继推出针对AI、数据分析和HPC应用场景的两款产品: A100和H100。与A100相比,H100的综合技术创新可以将大型语言模型的速度提高 30倍,从而提供业界领先的对话式AI功能。具体到性能参数,同为SXM外形规格的 H100/A100,半精度浮点算力(FP16 tensor core)分别为989.4/312TFLOPS,互连 带宽分别为900/600 GB/s。2023年GTC大会上,英伟达针对ChatGPT等大型语言模 型的大规模部署,推出了H100 NVL,其配备双GPU NVLink,将两张拥有94GB HBM3 显存的PCIe H100 GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型。与适 用于GPT-3的HGX A100相比,一台搭载四对H100和双NVLINK的标准服务器速度能 快10倍,可以将大语言模型的处理成本降低一个数量级。
(二)如何理解并测算 GPU 算力
以英伟达A100 Tensor Core GPGPU为例,其架构中包括以下单元:每个GPU有7 个GPC,每个GPC有7个或8个TPC ,每个TPC有2个SM,每个GPC最多16个SM, 总共108个SM。由多个小核心组成的SM是运算和调度的基本单元,是GPU中处理运 算功能的核心。其中,每个SM有64个FP32 CUDA核,64个INT32 CUDA核,32个 FP64 CUDA核,以及4个第三代Tensor Core。由于Tensor Core因为专注于矩阵运 算,其矩阵运算能力显著强于Cuda Core,可以加速处于深度学习神经网络训练和推 理速度,在维持超低精度损失的同时大幅加速推理吞吐效率,因此在模型训练与推 理的过程中,Tensor Core将是主要的计算内核。
而在基于GA100的A100 Tensor Core GPU中包括以下单元:每个GPU有7个GPC, 每个GPC有7个或8个TPC ,每个TPC有2个SM,每个GPC最多16个SM,总共108 个SM。 由多个小核心组成的SM(Streaming Multiprocessor)是运算和调度的基本单元。 每个SM有64个FP32 CUDA核,64个INT32 CUDA核,32个FP64 CUDA核,以及4 个第三代Tensor Core,是GPU中处理运算功能的核心。 CUDA Core与Tensor Core功能不同。CUDA是英伟达推出的统一计算架构,几乎 每款英伟达的GPU都有CUDA Core,而Tensor Core最早出现于于英伟达2017年发 布的Volta架构中,是专为执行张量或矩阵运算而设计的专用执行单元。依据上文所 述,矩阵运算是神经网络训练和推理的核心,本质是在网络互联层中将大矩阵输入 数据和权重相乘,而Tensor Core因为专注于矩阵运算,其矩阵运算能力显著强于 Cuda Core,可以加速处于深度学习神经网络训练和推理速度,在维持超低精度损失 的同时大幅加速推理吞吐效率,因此在模型训练与推理的过程中,Tensor Core将是 主要的计算内核。
GPU峰值算力的测算公式为:峰值计算能力= GPU Core的运行频率*GPU SM数量* 单个SM对应的特定数据类型的指令吞吐量*2
根据峰值算力测算公式,A100/H100的峰值计算能力如下: (1)Tensor Core加速后的FP16峰值算力: A100 FP16(Tensor Core加速)峰值算力=311,869G FLOPS≈312T FLOPS H100 FP16(Tensor Core加速)峰值算力:=989,429G FLOPS≈989.4T FLOPS (2)Cuda Core下的FP32峰值算力: A100 FP32(Cuda Core)峰值算力=19,491G FLOPS≈19.5T FLOPS H100 FP32(Cuda Core)峰值算力=66,908G FLOPS≈66.9T FLOPS 峰值算力的变量主要集中在特定数据类型的指令吞吐量上。在上文以英伟达A100、 H100白皮书中给到的参数对峰值算力进行计算后,并与英伟达A100/H100 GPU的 白皮书中披露的峰值算力进行对比,可以发现,该公式计算的结果与英伟达官方披 露的性能参数一致。由此可见,GPU峰值算力与主频和硬件配置数量等参数相关。
算力需求拉动GPGPU市场规模增长。根据我们第一章的测算:在训练侧,训练一个 GPT-3.5 175B模型的NVIDIA A100需求为1080个;训练一个万亿参数量AI大模型 对A100的需求为8521个。在推理侧,一个谷歌级应用使用GPT-3.5 175B进行推理, 对NVIDIA A100需求为72万个;一个谷歌级应用使用万亿参数大模型进行推理,对 NVIDIA A100需求为378万个。NVIDIA作为GPGPU的龙头企业,其数据中心业务的 收入可以有效反映云计算和人工智能领域对具有训练或推理功能的GPU卡的需求。 2022年NVIDIA数据中心业务收入达150.10亿美元,同比增长41.50%。我们认为,在 AIGC需求持续提升的背景下,以GPGPU为首的算力芯片市场规模将得到显著扩容。
三、连接产品:AI 服务器中应用广泛,ChatGPT 催化 迎来量价齐升
(一)光芯片/光模块:DGX 服务器集群架构催生大量需求
光模块/光芯片是服务器集群网络的核心部件。为实现AI大模型训练、科学计算等高 算力需求工作,需要使用数百甚至上千个GPU组成的计算单元作为算力基础评估、 优化模型的配置和参数。为了使这样一个庞大的计算单元能够有效发挥其效率,需 要使用低延迟、高带宽的网络联接各个服务器节点,以满足服务器/GPU间计算、读 取存储数据的互联通信需求,同时对整个集群系统进行管理。服务器集群的网络系 统包含服务器、网卡、交换机、线缆(包含光模块)等主要硬件。就网络构成来看, 网卡搭载于服务器内部,网卡直接与CPU相连或通过PCIe Switch与GPU相连;一层 交换机通过服务器机身的端口与服务器内的网卡相连;线缆用于实现服务器-交换机、 交换机-交换机间的连接,如果信息传输以光信号的形式实现,线缆两端均需要搭载 光模块。参考从DGX-1到DGX H100的服务器迭代历程,服务器搭载网卡数量、单端 口支持最高带宽均呈现出逐代次增加趋势;相应对支持更高传输速率的交换机、更 高传输速率的线缆/光模块带来了增量需求。
在DGX A100和DGX H100网络集群中主要使用InfiniBand和以太网两类网络。根据 服务器工作过程网络的功能,可以分为计算网络、存储网络、In-Band管理网络、Outof-Band管理网络四类。其中计算和存储使用IB网络,In-Band管理和Out-of-Band管 理使用以太网。
DGX A100服务器集群中单颗A100对应约7颗200G光模块需求。在140台DGX A100 组成的DGX A100 SuperPOD集群中,考虑计算网络和存储网络需求,共有约4000 根IB网络线缆,对应约8000个端口;在全光互联方案中,平均每颗A100对应约7个 200G光模块需求,其中计算、存储网络分别对应6.0、1.2个200G光模块需求,合计 对应约28个50G光芯片(收发芯片)需求。 DGX H100服务器集群中单颗H100对应约1.5颗800G光模块+2颗400G光模块需求。 在128台DGX H100组成的DGX H100 SuperPOD集群中,考虑计算网络和存储网络 需求,平均每颗H100对应约1.5个800G光模块+2个400G光模块需求,约20个100G 光芯片(收发芯片)需求。
(二)高速接口芯片:高速接口芯片在服务器应用广泛
NVLink:实现GPU间高速直联。NVLink是一种GPU之间的直接互联,可扩展服务器 内的多GPU输入/输出。2016年,第一代NVLink搭载基于Pascal架构的Nvidia GP100 GPU发布,其传输速率可达160GB/s;目前NVLink已迭代至第四代,第四代 NVIDIA NVLink总带宽为900GB/s,是PCIe 5.0带宽的7倍。一代NVLink共有4个链路,单链 路传输速率40GB/s;第二代、第三代、第四代NVLink分别有6、12、18个链路,单 链路传输速率均为50GB/s。NVLink不仅可实现NVIDIA GPU间互联,也可以实现 GPU与CPU之间的互联(CPU需要支持NVLink协议,如IBM POWER9)。第一至第 三代NVLink传输信号为NRZ调制的电信号,第四代NVLink传输信号为PAM4调制电 信号;在信号传输过程,由NVLink控制器+PHY构成的组合实现信号的收发控制,其 中NVLink控制器按照功能又可分为三层: PL、DL、TL。
NVSwitch:实现服务器内更高带宽、更低延迟、更多GPU间通信。NVIDIA在2018 GTC大会发布了首款节点交换架构——第一代NVSwitch,其上有18个NVLink端口, 在单服务器节点内通过12个NVSwitch可以实现16个V100以NVLink能够达到的最高 速度进行多对多GPU通信;基于NVLink +NVSwitch实现服务器节点内16颗V100互 联的一台DGX-2与两台通过IB互联的DGX-1(每台内有8个V100)相比,前者AI运算 速度是后者的两倍以上。目前NVSwitch已经迭代到第三代,单芯片上共有64个第四 代NVLink端口,支持GPU间900GB/s的通信速度,这些通过NVLink Switch互联的 GPU可用作单个高性能加速器,拥有高达15petaFLOPS的深度学习计算性能。
CPU-DRAM间内存接口芯片。内存接口芯片是服务器内存模组的核心逻辑器件,以 提升内存数据访问的速度稳定性,满足服务器CPU对内存模组日益增长的高性能及 大容量需求。目前行业正从DDR4升级至DDR5。据JEDEC定义,DDR5时代,RCD 和DB需支撑的传输速率从3200MT/s提升至DDR5第一子代的4800MT/s,且子代还 在继续升级中。此外,DDR5世代还需配置1颗SPD、1颗PMIC和2颗TS等配套芯片, 行业迎来量价齐升。澜起科技是目前全球唯二可提供DDR5全套芯片的龙头厂商(其 中,SPD与聚辰股份合作提供)。 CPU-GPU互联芯片。人工智能、云计算、大数据的快速发展推动服务器对数据传输 的速度越来越高,PCIe协议传输速率也快速提升,但主板物理尺寸延展空间有限, 信号损耗问题愈发严重,整个链路插损从PCIe3.0的22dB增长到了PCIe5.0标准下的 36dB。PCIe Retimer芯片相较于更换更低损耗的PCB板和Redriver芯片等方案,信 号恢复能力最强,性价比最高,从而渐成为主流方案。当前,PCIe Retimer芯片已较 多应用于AI服务器、SSD扩展卡、Riser卡等典型应用场景。
根据AsteraLabs的方案,一台8卡GPU的AI服务器需要8颗PCIe 4.0 Retimer芯片, 本轮AIGC趋势可明显拉动PCIe Retimer的需求。通用服务器方面,据AsteraLabs应 用方案来看,Retimer芯片可用在NVMe SSD,NIC,Riser卡等多达8个应用场景使 用,单服务器用量不等。但随着PCIe 5.0的渗透提升,通用服务器的主板上可有在距 离CPU较远的Endpoint间使用PCIe Retimer。我们按照单通用服务器约装配1-2颗 PCIe Retimer芯片。价格方面,参考TI和AsteraLabs价格,PCIe 4.0 Retimer芯片约 24美元,PCIe 5.0 Retimer芯片平均价格约48.5美元,并预计后续价格年降。我们测 算出PCIe Retimer芯片市场规模到2026年有望增长至7.27亿美元。
(三)PCB:AI 服务器需求风起,PCB 升级浪潮已至
AI服务器高算力需求爆发,推动PCB单机价值量提升。PCB起中继传输的作用,是 电子元器件的支撑体,服务器PCB板上通常集成CPU、内存、硬盘、电源、网卡等 硬件,AI服务器在以上硬件上有不同程度的增加或升级,同时AI服务器增配4至8颗 GPGPU形成GPU模组,带来PCB板单机价值量提升。AI服务器PCB板价值量提升主 要来自三方面:(1)PCB板面积增加。AI服务器中除了搭载CPU的主板外,每颗GPU 需要分别封装在GPU模块板,并集成到一块主板上,相比传统服务器仅使用一块主 板,PCB面积大幅增加。(2)PCB板层数增加。AI服务器相对于传统服务器具有高传输速率、高内存带宽、硬件架构复杂等特征,需要更复杂的走线,因而需要增加 PCB层数以加强阻抗控制等性能。(3)PCB用CCL材料标准更高。AI服务器用PCB 需要更高的传输速率、更高散热需求、更低损耗等特性,CCL需要具备高速高频低 损耗等特质,因此CCL材料等级需要提升,材料的配方以及制作工艺复杂度攀升。
服务器用PCB市场规模高速增长。作为承载服务器内各种走线的关键基材,随着服 务器性能和算力升级,服务器对PCB板的性能和层数也提出了更高的要求,高层数 PCB板的市场份额将继续迅速提升。AI服务器加速普及,预计随着AI服务器出货量 以及在服务器中占比中不断提升,且AI服务器中PCB板面积、层数、材料提升促进 价值量增长,驱动服务器用PCB量价齐升,市场持续高速增长。根据沪电股份2021 年年报数据,服务器与数据存储领域PCB市场规模预计在2026年达到126亿美元, 2020年到2026年CAGR为13.5%,高于同期PCB市场整体增速7.7%。
四、存储芯片:HBM 成高端 GPU 标配,充分受益于 AI 服务器需求增长
(一)AI 服务器需要高带宽支持
数据处理量和传输速率大幅提升是AI服务器需要高带宽的主要原因。AI服务器需要 在短时间内处理大量数据,包括模型训练数据、模型参数、模型输出等。近年来,人 工智能训练能力增长迅速,各种高性能应用不断涌现。根据OpenAI数据,2012-2019 年,人工智能训练能力增长30万倍。如ChatGPT基于的GPT3.5大模型的参数量是 135B,庞大的数据量需要在高速通道中传输。据美光全球显存业务主管Bill Randolph 表示,随着数据密集型工作负载和应用程序的增长,以及不断演变的应用场景和新 兴业务机会的出现,“很难想象将一个拥有超过13亿个参数的AI模型放入单个 GPU(即使32GB内存)中进行处理。”
AI服务器需要高带宽的连接和数据处理包括以下几个方面:(1)GPU之间的通信: 在大多数深度学习训练中,使用多个GPU并行计算模型。这需要在GPU之间传输数 据,以协同工作并加速训练过程。由于GPU计算速度非常快,且数据量极大,因此 需要更高效率传输和存储数据。(2)CPU和GPU之间通信:在一些机器学习任务中, CPU负责数据预处理等任务,而GPU负责计算。CPU和GPU之间需要高速的通信连 接来传输数据。(3)存储和内存之间通信:在深度学习训练中,需要在存储器和内 存之间传输大量数据,以及在内存之间传输模型参数和中间结果。这需要高速的连 接来保证数据的及时传输和处理。(4)网络通信:AI服务器还需要处理大量的网络 通信,例如从客户端传输训练数据或从云端获取模型更新。这些数据也需要通过高 速网络连接传输,以确保及时完成任务。
GPU主流存储方案目前主要分两种:(1)GDDR方案:该方案在SoC周围有大量外 设。该方案主要通过从GDDR5升级为GDDR6提高带宽,但GDDR如果要增加1 GB 的带宽将会带来更多的功耗,因此不利于系统性能提升。(2)HBM方案:HBM(全 称“3D High Bandwidth Memory”),是一种非常紧凑的内存技术,由多个芯片垂直 堆叠而成,每个芯片上都有多个内存通道。HBM可以在很小的物理空间内实现高容 量和高带宽的内存,有更多的带宽和更少的物理接口,而物理接口越少,功耗越低。同时还具有低延迟的特点,但相对而言,成本更高。HBM方案目前已演进为较为主 流的高性能计算领域扩展高带宽的方案。
(二)HBM 技术持续演进,已成为高端 GPU 标配
HBM技术向提高存储容量和带宽演进,同时减小功耗和封装尺寸。HBM是目前高端 GPU解决高带宽主流方案,AIGC热潮拉动HBM需求增加。AI服务器需要在短时间内 处理大量数据,包括模型训练数据、模型参数、模型输出等。这些数据量通常都非常 大,对高带宽需求大幅提升。GPU主流存储方案目前主要分GDDR和HBM两种方案。 与GDDR方案相比,HBM方案由多个芯片垂直堆叠而成,每个芯片上都有多个内存 通道,可以在很小的物理空间内实现高容量和高带宽的内存,有更多的带宽和更少 的物理接口,而物理接口越少,功耗越低。同时还具有低延迟的特点,但相对而言, 成本更高。HBM升级朝着不断提高存储容量、带宽,减小功耗和封装尺寸方向升级, 目前已升级到HBM3。HBM方案最初由英伟达和AMD等半导体公司定义和推动,从 最初的1GB存储容量和128GB/s带宽的HBM1发展到目前的24GB存储容量和 819GB/s带宽。高速、高带宽的HBM堆栈没有以外部互连线的方式与计算芯片连接, 而是通过中间介质层紧凑连接。以HBM2方案为例,相对于GDDR5,HBM2节省了 94%的芯片面积。从带宽角度看,一个HBM2堆栈封装的带宽为307Gbyte/s,远高于 GDDR5的带宽。
HBM的特性相比DDR更适合用于AI领域。HBM能够很好满足针对AI领域内存高带宽、 大容量、低功耗的需求,主要体现在:第一,HBM通过TSV和微凸块技术将3D垂直 堆叠的DRAM芯片相互连接,突破了现有的性能限制,大大提高了存储容量。第二, HBM具有可扩展更大容量的特性。HBM的单层DRAM芯片容量可扩展;HBM通过4 层、8层以至12层堆叠的DRAM芯片,可实现更大的存储容量;HBM可以通过SiP集 成多个HBM叠层DRAM芯片,从而实现更大的内存容量。第三,由于采用了TSV和 微凸块技术,DRAM裸片与处理器间实现了较短的信号传输路径以及较低的单引脚 I/O速度和I/O电压,使HBM具备更好的内存功耗能效特性。第四,在系统集成方面, HBM将原本在PCB板上的DDR内存颗粒和CPU芯片一起全部集成到SiP里,因此 HBM在节省产品空间方面也更具优势。 在云端高性能服务器领域,HBM已经成为了高端GPU的标配。英伟达从2017年发布 的V100起,一直配置最新的HBM技术,如A100使用了HBM2E,H100使用了SK海 力士的HBM3。
AIGC时代推动HBM需求显著增加。HBM的需求增加不仅体现在单颗GPU需要配置 的HBM的Die层数增加,Stack个数增加。也体现在ChatGPT带动的AIGC热潮下,大 模型训练需求提升拉动对AI服务器和AI芯片的需求,HBM在2023年来需求明显增加, 价格也随之提升。据Omdia在2021年的数据,预计到2025年HBM市场规模将达到约 25亿美元。我们认为,随着AIGC产业链在2023年发展持续超预期,拉动对AI服务器 需求增加,HBM的市场规模增长或超该预测。
(三)产业链上下游大力推进 HBM
海力士、三星美光等厂商紧跟HBM趋势,已发布多款产品。(1)SK海力士:在HBM 领域研发走在了业界前列。2014年SK海力士与AMD联合开发了全球首款硅穿孔 HBM产品,其带宽高于GDDR5产品。2022年6月实现HBM3的量产,并向英伟达大 量供货,配置在英伟达高性能GPU H100之中。(2)三星:在HBM领域发展较为顺 利。于2016年首次量产HBM2产品,同时发布了4GB和8GB的HBM2 DRAM。2024 年公司预计实现接口速度高达7.2Gbps的HBM3P,预计2025年在新一代面向AI的 GPU中见到HBM3P的应用。(3)美光科技:美光科技于2020年7月宣布大规模量产 HBM2E,HBM3也仍作为其产品线在持续研发之中。
英伟达历代主流训练芯片基本都配置HBM。其2016年发布的首个采用帕斯卡架构的 显卡Tesla P100已搭载了HBM2,随后Tesla V100也采用了HBM2;2017年初,英伟 达发布的Quadro系列专业卡中的旗舰GP100也采用了HBM2;2021年推出的Tesla A100计算卡也搭载了HBM2E,2022年推出了面向大陆地区的A800,同样也配置 HBM2E;2022年推出了市面上最强的面向AI服务器的GPU卡H100,采用的HBM3。
五、其他产品: AI 服务器需求提升,多相电源供电方 案增量显著
多相电源产品在AI服务器中单机价值增量显著,GPU升级推动量价齐升。AI服务器 与通用服务器主要区别在于AI服务器配备4/8颗GPGPU,以满足高性能计算需求。 多相控制器+DrMOS组成的多相电源解决方案是GPU的主流供电形式。我们对8卡AI 服务器的多相电源解决方案产品新增需求进行测算,参考NVIDIA V100的多相电源 配置,A100至少需要16相电源解决方案(1颗多相控制器+16颗大电流DrMOS的配 置),则该AI服务器相较于普通服务器增加了8颗多相控制器、96颗大电流DrMOS需 求,参考TI官网产品价格,两种产品价格分别约为7.7美元、2.0美元,则AI服务器单 机新增多相电源产品价值量约为254美元;根据MPS数据,单台普通服务器CPU主 板电源解决方案(包含多相控制器+DrMOS+POL+EFuse等产品)合计价值量约80 美元;因此AI服务器单机多相电源产品价值量相较于普通服务器有数倍提升。英伟 达在2023年3月21日的GTC大会发布了应用于大型语言模型部署的H100NVL新产 品,具备更高算力的H100 GPU为更大规模的AI模型训练提供更强大的算力支持,同 时产品升级也伴随功率等级提升,H100 SXM产品最大热设计功率(TDP)高达700W, 远高于前代次产品A100的300W~400W。高算力GPU产品功率的提升对DrMOS的数 量、性能带来了更高需求,服务器领域多相电源产品市场空间也将充分受益于服务 器GPU的产品迭代和性能升级。
六、下游应用: AIGC 赋能千百行业,智能应用蓄势待 发
(一)内容生产进入 AIGC 时代,跨模态成为增长点
内容生产已经从专业化的PGC到用户生产的UGC,现在已经进入AIGC时代。AIGC 技术赋能千行百业,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用, 支撑着传媒、电商、娱乐、影视等领域的内容需求。AIGC不仅意味着AI的角色开始 从观察、预测拓展为生成、决策,也意味着AIGC作为一种赋能技术,借助其大模型 的跨模态综合能力和内容生产力,将广泛服务于各类终端行业。
AIGC尚处于萌芽阶段,有望成为未来关键技术推动力。AIGC从其数据中学习内容 或对象,并运用数据生成全新、完全原创的实际工件,可用于多种活动,如创建软件 代码、促进药物研发和有针对性的营销等。根据Gartner发布的《2022年新兴技术成 熟度》报告显示,生成式AI仍处于技术萌芽期阶段,离技术成熟还需要花费五到十年 时间。在这一阶段,生成式AI具有较大的发展潜力,有望成为未来关键技术推动力。 Gartner认为生成式人工智能为2022年重要战略趋势,是最引人注目和最强大的人工 智能技术之一,到2025年,生成式人工智能将占所有生成数据的10%。
技术场景细分多样化,技术原理突破推动规模化应用。AIGC应用技术场景细分领域 众多,按照模态区分,可以分为音频生成、文本生成、图像生成、视频生成及图像、 视频、文本间的跨模态生成,多点开花。目前已经有较为明确应用的有结构化文本 写作、辅助性文本写作、作曲及编曲、图像编辑、视频属性编辑等,非结构化文本写 作、创意图像及视频生成、文本到图像和视频的跨模态生成预计会在未来1-2年内实 现规模化应用。伴随着有关底层技术原理的不断突破和细化,AIGC将迎来快速发展 和广泛应用。使用AIGC不仅可以实现降本增效,更能激发创意,提升内容多样性, 降低制作成本。
AIGC赋能千行百业,未来需求乐观可期。AIGC作为一种赋能型技术,能在很多行 业内找到应用场景的结合点。这台“21世纪的珍妮纺纱机”基于其强大的内容生产 能力,将重塑几乎所有行业,带领行业进入新时代。目前在绘画、视频制作、音乐、 写作、编程等众多内容生产行业中都有显著的业务需求,在游戏、传媒、电商、娱 乐、教育、金融、医疗、药研、工业等多个行业中都有望塑造更多应用场景。
(二)安防:AIGC 有望与安防紧密结合,驱动泛安防产业智能化升级
大语言模型朝着多模态方向发展,多应用场景均开始布局。GPT4.0转向多模态,新 增了图像输入,能同时进行文本和视觉处理的多模态大模型已是技术变革方向。与 此同时,当前海内外大厂纷纷在更多文字生成、社交娱乐、音视频、办公等领域布局 或引入大语言模型的发展,并朝着多模态方向发展。
AIGC驱动安防智能化升级,市场潜力逐渐显现。AIGC作为新型的内容生产基础设 施对既有的内容生成模式可产生革命式影响,一方面其已在办公、影视、绘画等内 容需求丰富的行业取得显著发展,另一方面原本已和AI结合的安防、制造等行业也 正在AIGC大潮下朝着更加智能化的方向发展,市场潜力逐渐显现。
AIGC有望与安防紧密结合,驱动泛安防产业智能化升级。ChatGPT和AIGC技术的 应用,可以帮助安防产品实现更高效的数据处理和管理,大幅提升安防系统的反应 速度和处理能力,实现一定程度降本增效,推动智慧安防乃至智能物联网行业发展。 近几年,传统安防已通过物联网、云计算、AI等技术升级为智慧安防。据IDC数据, 视频监控、人脸识别、智能摄像头等泛安防是中国近年来已部署和计划部署的重点 AI领域,也是AI最先商业化的领域之一。随着AIGC时代的来临,智慧安防可进一步升级。具体而言,ChatGPT可以通过分析和处理大量语音、文本和图像数据,帮助 识别并分类人、车辆、动物等不同对象,帮助安全系统快速识别异常事件,以及实现 更精细化的数据分析和挖掘,进一步提升预测准确率等。同时,ChatGPT的应用还 将促进安防与其他相关领域合作,以谷歌和微软等厂商致力于利用神经网络进行机 器人控制为例,将视觉数据以及大型语言模型结合起来,也可推动安防机器人的发 展。ChatGPT和AIGC技术的应用,可以帮助安防产品实现更高效的数据处理和管理, 从而大幅提升安防系统的反应速度和处理能力,有望实现一定程度降本增效,大力 推动智慧安防乃至智能物联网行业发展。
海康威视和大华股份是智能物联龙头,泛安防产品的AI产业化进展迅速。海康威视 近年来积累在CV、AI等底层技术进行泛安防软硬件产品布局,并提供AI开发平台服 务。截至2021年年底,海康的AI开发平台服务企业用户超过8000家,生成模型5000 个,积累落地项目4000个。此外,继萤石分拆后,子公司海康机器人也申报上市, 公司与AI紧密相关的创新智能物联业务进展迅速。大华股份的AI能力的落地一方面 体现在端、边、云产品的产业化之中,将AI与公司产品强融合,另一方面体现在将AI 与公司产品强融合通过ICC和云睿两大平台,融合数字化生态,推进产业AI化。为完 成公司AI基础能力与企业业务的彼此互补,大华也打造了一款低成本、快迭代、低门 槛、全协同的一站式人工智能开发平台――DahuaJinn大华巨灵平台,实现组装式算 法开发模式,推动感知智能、数据智能、业务智能闭环产业化落地。
(三)视觉:AIGC 作为生产力工具赋能元宇宙,推动 XR 设备发展
VR(Virtual Reality,虚拟现实)是指利用VR设备模拟产生一个三维的虚拟空间,提 供视觉、听觉、触觉等感官的模拟,让使用者如同身临其境。简而言之,就是不依赖 于使用者自身所处的环境,完全“无中生有”。AR(Augmented Reality,增强现实) 是VR技术的延伸,能够把计算机生成的虚拟信息(物体、图片、视频、声音、系统 提示信息等)叠加到使用者所在的真实场景中,并与人实现互动,但使用者能区分 两者区别。MR(Mixed Reality,混合现实)是VR向AR技术过渡的产物,将虚拟世 界和真实世界合成一个无缝衔接的虚实融合世界,其中的物理实体和数字对象满足 真实的三维投影关系。混合现实技术通过在现实环境中引入虚拟场景信息,在现实 世界、虚拟世界和用户之间搭起一个交互反馈的信息回路,以增强用户体验的真实 感,具有真实性、实时互动性以及构想性等特点。我们认为MR为元宇宙技术升级必 经路线,有望成为各科技巨头积极布局的下一代技术。
AIGC逐渐实现元宇宙的可扩展性潜力,低成本、高效率地满足VR/AR用户海量内容 需求。以AR/VR作为入口,元宇宙极大扩展了人类在虚拟世界的生存空间。但元宇 宙中需要大量3D场景构建,高保真3D模型单靠人工设计开发效率低、成本高。AIGC 有望成为新的元宇宙内容生成解决方案,利用AI方式生成3D场景将成为未来元宇宙 满足海量用户不同需求的解决之道。具体而言,AIGC技术通过提供元宇宙环境生成 的基础设施、提供个性化内容体验和交互方式等,更好地满足用户需求。 AIGC释放开发人员生产力,为构建沉浸式元宇宙空间环境提供核心基础设施技术。 元宇宙可以应用在工作、会议、游戏以及生活社交等活动,因此需要在元宇宙空间 中创建丰富的活动对象、建筑和活动环境。但是,在过去,为了构建这些数字环境, 需要开发团队半手工地创建每一个部分,用鼠标拖动来放置。而现在AlGC通过实现 创建逼真的3D虚拟空间环境、虚拟人物,并且效率和成本可以满足大规模的元宇宙 空间环境创建。例如在游戏场景中,未来游戏的剧情、角色、头像、动作等数字原生 基本元素都可以用AIGC进行生成,游戏世界地图也能通过AIGC进一步延展,极大程度释放开发人员生产力,用更少的时间编写代码,提升元宇宙建成速度。
AIGC为元宇宙用户提供个性化内容体验,吸引更多用户进驻元宇宙。AIGC作为生 产力工具,可以满足和填充内容匮乏的虚拟世界,同时赋予用户更多的创作自由。 例如,AIGC可以帮助用户将手机拍摄的一系列照片生成可以使用的3D渲染图,帮助 用户通过语音文字输入来创建可修改的3D环境。采用这种创造内容的方式,AIGC技 术极大地提高元宇宙环境的创作自由,提升个性化体验,未来的元宇宙体验将不再 完全由开发人员构建,而是利用AIGC响应用户的输入按需生成。
AlGC在元宇宙用户交互界面发挥作用。元宇宙中存在很多类似NPC的智能体为用户 提供交互服务,这些智能体可以由AlGC生成并驱动。当用户借助VR/AR设备进入虚 拟空间时,ChatGPT可以作为语言模型集成到各种智能体中,充当元宇宙中的虚拟 助手或伙伴,执行“智能”动作和更为复杂的任务。2022年5月,Meta宣布“CAIRaoke 计划”,“CAIRaok计划”所开发的模型,将允许用户随意地与购买的AI会话助手沟 通,用户可以向助手发出简单的语音指令继而创建所需的虚拟现实设置类型。
XR市场规模年均复合增速为32.8%,AIGC应用推动硬件端出货量持续增长。根据 IDC数据,全球VR/AR市场规模将从2021年43.43亿美元增长至2025年的361.12亿 美元,CAGR为69.8%。根据Omdia数据,2023年近眼显示面板出货量有望达到2406 万台,同比增长67.3%。随着索尼PSVR 2、苹果MR、Meta Quest 3、HTC新产品等 主要产品的推出,以及AIGC未来在内容端的持续赋能,XR产业有望迎来新一轮增长。
1.苹果MR头显发布在即,产业链迎来成长机遇
苹果公司全方位应用AI技术,并购增强技术能力。苹果公司在手机、家居、AR等多 个板块均应用人工智能技术提供智能化用户体验。包括手机端上AI语音助手Siri帮助 用户完成语音控制、信息查询和智能推荐等任务、智能家居产品HomeKit应用了人工 智能技术实现了家庭设备的互联互通和智能控制、AR方面增强现实技术平台ARKit, 通过机器学习和计算机视觉技术实现了高质量的增强现实体验等。苹果通过收购初 创企业持续扩张AI技术能力,特别在面部识别、表情分析、动作捕捉处理、图像视觉 等涉及AI+MR应用领域方面,利用并购持续增强技术能力。2010年,苹果收购瑞典面部识别技术公司Polar Rose,布局面部识别相关技术。2013年,苹果收购 PrimeSense公司,从布局实时3D运动捕捉相关技术。2015年,苹果收购专门从事面 部动画和动作捕捉的Faceshift。2016年,苹果收购研发面部表情分析工具的Emotient, 该公司通过人工智能及机器学习技术来分析人类表情;2017年,苹果收购从事面部 识别技术的网络安全和机器学习公司RealFace,该技术有可能用于未来的增强现实 功能。2018年,苹果收购瑞士公司Flashwell,从事AI图像视觉研发。苹果自2015年 以来,已收购多家初创企业,持续在AI领域扩张,不断汲取优秀的技术人才。
AIGC技术叠加Siri语音助手,有望助力苹果在头显中实现虚拟世界的ChatGPT。 2022年苹果首次展示了GAUDI AI用于沉浸式3D场景生成的神经网络AI系统,可以 根据文本提示创建3D场景,实现3D场景的AIGC。GAUDI模型通过三个专门的解码 器实现3D场景的AIGC:相机姿态解码器对相机可能位置进行预测,并确保3D场景 输出的位置有效架构的有效位置;场景解码器负责形成3D的画布来展示物体;辐射 场解码器负责渲染绘制后续图像。凭借GAUDI AI系统,苹果正在为渲染3D对象和场 景的生成式人工智能系统奠定基础,这一系统可能应用于苹果的XR头显中,实现3D 内容生成。进一步地,GAUDI模型有望与Siri结合实现低门槛的3D场景生成功能,据 The Information报道,苹果MR头显对话式系统与Meta BuilderBot类似,帮助用户利 用Siri语音助手,通过与Siri语音交互对虚拟动物设计、场景移动方式等描述以实现三 维场景创建,此外系统还可以计算出物理空间中的障碍物,并为虚拟动物附加自然 的物理交互。GAUDI与Siri的结合,有望帮助苹果头显中实现虚拟世界的ChatGPT。
苹果MR头显产品发布在即,具备四大核心亮点。预计苹果公司首次推出的MR设备 将以专业人士和开发者为主要用户,服务于高端市场。根据Metaverse元宇宙,苹果 MR头显具备四大亮点,包括一键切换VR/AR模式,可以使产品更好地与现实世界直 接结合,为MR内容交互提供更多的空间;眼动追踪及手部追踪功能,能够更好地提 升用户体验,突破交互方式;视频会议功能,能在虚拟世界中逼真地渲染用户的面 部和全身,增强体验感;外接生产力工具方面,苹果MR头显能够作为连接Mac的外 部显示器,并且用户还能在戴上头显之后,使用触控板或者鼠标、物理按键控制设 备。根据苹果官网,年度全球开发者大会(WWDC)定档于北京时间2023年6月6日 至10日,旨在展示iOS、iPadOS、macOS、watchOS和tvOS的前沿创新。
主攻教育、健康、游戏、视听四大应用场景,AppleTV+团队或成内容研发主 力。苹果围绕健康、教育、游戏、视听四大场景对其MR内容有所布局,例如开发有 助于冥想和锻炼的AR应用程序,让用户在看书的过程中体验到奇幻的环境与现实世 界融为一体的感受,让用户处于沙漠或者太空场景中观看视频,创建底层引擎为MR 游戏提供支持。根据Metaverse元宇宙,苹果的内容团队由一个代号为Z50的团队研 发,规模约为几十人,该团队成员多数都是来自视频、游戏等领域,其主要任务为根 据自身过去的流媒体服务Apple TV+中的经验,为MR头显打造内容。彭博社记者 Mark Gurman报道,苹果正在将自家常用的FaceTime、笔记等软件移植到头显当中, 另外它也可以充当Mac设备的“第二屏”。
2.Pico背靠字节跳动,有望持续获得AI技术加持
字节跳动持续布局AI技术,Pico作为主力终端产品有望充分受益。2021年Pico被字 节跳动收购。作为国内顶尖的互联网企业之一,字节跳动2012年发布今日头条,以 人工智能推荐算法起家,AI底蕴深厚。2016年,字节跳动人工智能实验室(AI Lab) 成立,成立时聚集马维英、李航、李磊等AI领域超级大牛,为平台持续提供AI技术支 持,研究领域涵盖计算机视觉、自然语言处理、机器学习、语音音频处理、数据知识 挖掘、计算机图像学等各个领域。此后在各个AI应用领域,字节AI技术研发与应用持 续深化;2018年,字节跳动“端上智能计算机视觉算法平台”项目获得CCF科技进 步卓越奖;2019年,字节推出头条搜索使用机器学习根据用户行为对搜索结果进行 个性化设置、推出剪映利用人工智能赋能视频剪辑自动化视频编辑任务、收购AI游 戏技术研发商深极智能,在搜索、视频、游戏等不同方面深化人工智能算法应用; 2020年,字节推出重磅产品火山引擎,提供多个领域人工智能开发与运维等服务, 并推出切入AI教育硬件领域推出产品大力智能家教灯,通过AI摄像头实现远程作业 辅导;2021年,字节推出面向开发人员和企业的AI工具和服务BytePlus,并切入AI+ 医疗领域,旗下医疗品牌“小荷健康”研发了一款结肠镜AI辅助诊断软件,并与清华 大学合作首次提出了神经网络配音器;2022年联合南京大学、清华大学人工智能产 业研究院提出AI药物设计方法。在与VR相关的渲染技术、动作捕捉、图像内容生成 等人工智能技术上,字节跳动具备强大技术积累,Pico作为字节跳动在VR/AR领域 探索的主力产品,有望持续得到字节AI技术加持。
Pico利用AI算法赋能虚拟场景生成,为内容提供更强技术支持。2022年,Pico正式 推出了官方MRC(Mixed Reality Capture,混合现实录制)。对比Meta Quest需要 个人电脑以及绿幕背景,Pico利用深度学习抠图模型,将人物从物理环境中抠出并 且叠加到虚拟游戏空间中,配合无线投屏技术实现更低门槛、更高质量的MR视频制 作。此外,在虚拟演出这一场景中,Pico也开发了针对VR场景的AI灯光变化系统、 AI智能音频分析系统等,在旗下VR音乐互动产品BIT-CLUB中运用,呈现超现实的 VR电音现场,为用户展现出更为极致的视觉体验。
3.Meta在AI领域底蕴深厚,产品配置迭代升级
Meta在AI领域研发底蕴深厚,具有世界级话语权。由于社交平台在推荐算法、广告、 搜索排名、推荐以及用户数据分析等方面的需要,Meta很早便开始布局人工智能技 术。2013年4月成立人工智能研究机构FAIR,FAIR主要成就包括发布开源机器学习 框架PyTorch、自然语言处理模型PyText等等。同时,Meta在AI领域通过收购实现技 术拓展。2016年Meta收购面部表情分析技术公司FacioMetrics以及聊天机器人开发 工具的公司Tugboat Yards;2017年收购人工智能个人助理应用Ozlo和神经网络初 创公司Deeplearning.ai;2018年收购了开发用于理解和总结文本的自然语言处理技 术英国初创公司Bloomsbury AI:2019年收购开发大脑信号控制计算机技术的CTRL labs、收购计算机视觉初创公司Scape Technologies;2020年收购利用人工智能和 机器学习帮助企业管理客户互动的公司Kustomer;2021年收购使用人工智能和机器 学习创建交互式游戏体验的公司Unit 2 Games、收购AI声音识别公司Audio Analytic。 Meta在AI领域并购数量较多,持续在AI技术领域扩张,不断汲取优秀的技术人才。
Meta持续探索AI技术,布局AI+VR/AR全面覆盖前沿功能。2021年末Meta将其AI团 队合并入负责开发AR/VR产品的Reality Labs部门,其AI研发团队更加专注于元宇宙 相关业务。Meta持续以AI算法赋能VR/AR设备,技术涵盖平台、芯片、图像生成、 图像渲染、眼动追踪、动作捕捉、视听觉结合、虚拟背景处理、真实世界数据模拟、 虚拟图像生成等方面,全方位助力Meta Quest体验不断提升。
MCC+MAV3D+ Bulider Bot,Meta加速实现虚拟现实“Chatgpt”。Meta的研究团 队结合视频和3D生成模型的优点,先后提出2D图像转换为3D模型的方法MCC与文 本到4D生成系统MAV3D。MCC为多视图压缩编码技术,作为基于变压器的编码器解码器模型,可以从单个RGB-D图像重建3D对象。MAV3D基于AIGC理念,是第一个基于文本描述产生3D动态场景的方法,可以为电玩游戏、视觉效果或AR/VR产生 动画3D资产。利用MCC技术和MAV3D技术,Meta有望加速在VR设备中实现AIGC, 提供个性化内容体验,并在虚拟环境中提供文本/语音信息的交互功能。进一步地, Meta正在测试AI驱动的Builder Bot程序,帮助用户通过语音命令,在虚拟环境中让 AI一步步创建3D景观,从而个性化地建造VR世界。
(三)听觉:AIGC 为生产力工具开启视听盛宴,打开终端设备成长空间
AIGC通过提取信息生成音频,TTS领域应用较为成熟。TTS即Text-to-speech,主要 是基于AI的自然语言处理+语音合成技术把文字转化为自然语音。TTS应用较为成熟, 国内外众多互联网巨头旗下产品均提供智能语音合成服务,例如Google Text-toSpeech、Amazon Polly、IBM Watson Text-to-Speech、喜马拉雅、字节跳动剪映 等等,广泛应用于客服、有声读物制作、语音播报、视频配音等领域。TTS技术的突 破点在于不断结合文本信息,通过语音语调、语音情感等提升对文本的表现力,以 及提升基于用户的个性化能力,AI模型能力不断提升使得TTS技术取得长足进步。此 外,语音克隆本质上是一种模仿目标声音音色、语调、语音习惯的TTS,契合声音IP 化的潮流,目前也正在配音、虚拟人、地图导航语音等方面得到广泛应用,例如喜马 拉雅运用TTS技术重现单田芳声音版《毛氏三兄弟》;标贝科技旗下恐龙贝克APP采 用AI语音合成技术,通过为孩子复刻父母亲声音;与奥飞娱乐合作将超级飞侠乐迪/ 小爱的声音定制成TTS声音等等,极大程度丰富用户体验。
智能音箱着重交互与智能控制,AI推动各品牌产品创新升级。智能音箱是家庭场景 交互中心与IoT控制中心,智能化需求明确。智能音箱基于自然语言处理以及物联网 技术,关键特性包括语音交互、内容分享及智能家居控制。智能音箱应用场景不断 增加,从最初的语音控制的音乐播放器,发展到家庭场景中仅有的人机交互电器之 一,并在人工智能语音控制技术加持下进一步与其他智能家居互联,逐步成为智能 家居设备控制中心。在交互中心层面,目前各品牌智能音箱已经满足基本交互需求, 尤其是在讲故事、家庭教育、播放音乐、简单问答等方面具备较强能力,例如百度旗 下的小度智能音箱内置较为强大的家教功能,通过智能问答、智能日程设计、家教 资源内容输出等方式参与家庭教育环节。在控制中心层面,目前主流智能音箱已经 能透过物联网功能对家庭电器进行控制,例如天猫精灵能够控制家庭情景中空调、 灯光等各类电器,完成开关、调档等功能。
AI技术持续加持各品牌智能音箱交互与控制性能,提升用户体验。小度、天猫精灵、 小爱同学等国内主流智能音箱厂商持续在连续对话、眼神/童脸/手势控制、全双工免 唤醒、DLNA投屏等方面运用AI黑科技持续拓展交互能力。语音交互上,智能音箱语 音云端操作系统已经较为成熟,例如科大讯飞旗下iFLYOS平台能帮助智能音箱厂商 自选唤醒词、发音人、系统画像等进行场景定制的语音交互引擎开发,应用在中兴智能音箱等设备上;2020年小度智能音箱搭载了百度首款专门针对远场语音交互研 发的鸿鹄芯片,实现更高水平的语音交互。控制方式上,以小度智能音箱为例,小度 于2018年6月首次发布连续对话技术,实现了人与智能音箱连续对话,改善人机交互 中无法多轮对话、需要多次重复唤醒问题;2019年7月小度首发全双工免唤醒能力, 同时实现“一次唤醒,多轮交互”以及人机对话与人人对话互不干扰。2019年12月 小度提出了兼具全双工免唤醒、眼神唤醒、手势控制在内的多模态交互方式。总体 上,前沿人工智能技术的突飞猛进,帮助各品牌厂商智能音箱不断实现交互与控制 能力的提升。
智能交互与家庭场景深度匹配,AIGC加持下智能音箱有望实现飞跃。当前的智能音 箱的交互更类似于简单的语音助手以及搜索引擎,能力受限,往往智能对于特定指 令进行回应。而未来,在生成式AI模型加持下,智能音箱能够给出更加丰富、更加准 确的反馈,提升消费者的体验。同时在控制层面,AIGC能力有望帮助智能音箱更深 层次理解人类指令,并进一步实现对家庭内部各类物联网设备的复杂控制,强化家 庭设备控制中心的地位。根据IDC数据,2022年包括智能音箱在内的家庭智能设备 市场规模为306.3亿美元,预计到2026年市场规模将达到382.9亿美元,CAGR为 5.7%。预计在AIGC加持下,作为家庭智能设备交互中心与控制入口的智能音箱有望 不断增强交互与控制能力,在家庭内部家庭教育、电器控制、起居辅助等方面进一 步提升用户体验,销量进一步提升。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。