Email:ceo@lianyun.wang
生成式AI技术基于大语言模型架构,可以为XR场景与用户之间的虚实交互提供更加自然的交互方式、更流畅的场景和角色切换,让用户感受到与现实世界相匹配甚至超现实的沉浸式体验。
在国内,标准化工作也在积极推进以支持这一技术的发展。全国信标委人工智能分委会(TC28/SC42)发布GB/T 42382.1-2023《信息技术 神经网络表示与模型压缩 第1部分:卷积神经网络》,规定了卷积神经网络(Convolutional Neural Network, CNN)离线模型的表示与压缩过程,以保证人工智能技术的跨平台可操作性,并提升模型复用效果,从而带动人工智能产业的健康、快速发展。该标准是国内首个面向人工智能生成模型的国家标准。此外,《信息技术 神经网络表示与模型压缩 第2部分:大规模预训练模型》(计划号:20230717-T-469)和《信息技术 神经网络表示与模型压缩 第3部分:图神经网络》(计划号:20230718-T-469)正在起草过程中。
全国网络安全标准化技术委员会(TC260)正在起草生成式AI数据和服务安全方面国家标准,如《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(计划号:20242095-T-469)、《网络安全技术 生成式人工智能数据标注安全规范》(计划号:20242097-T-469)、《网络安全技术 生成式人工智能服务安全基本要求》(计划号:20241752-T-469)。
国际上ISO/IEC JTC1/SC42负责人工智能标准化工作,重点围绕数据质量与治理、可信与安全展开研制工作。此外,在第27届联合国科技大会期间,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。其中,《大语言模型安全测试方法》由蚂蚁集团作为牵头单位。
编解码技术
1
概述
在虚拟现实产业中,音视频编解码技术主要应用于沉浸式媒体内容源的获取编码、封装、传输、解码及呈现交互。如下图所示。
图 2 音视频编解码技术框架
其中,视觉方面主要包含4K/8K超高清视频、全景视频、自由视点视频、点云、3D网格(3D Mesh) 等视频流;听觉方面包含沉浸式音频流。
2
XR中的编解码技术
视频编码
1)超高清视频编码
超高清视频通常指4K/8K分辨率的视频内容,支持高帧率(HFR,如100fps、120fps)、高动态范围(HDR)、广色域(WCG)。超高清视频对应的超高数据量和超大带宽,对压缩效率和时延也提出了更高的需求。基于此,国内外标准工作组织,如