Tel:153 2100 2012

Email:ceo@lianyun.wang

Beijing Four Sentences of Heng Qu science and technology Co., Ltd.
北京横渠四句科技有限公司
《扩展现实(XR)产业和标准化研究报告》——数据格式、内容生产
来源: | 作者:4SHQ | 发布时间: 106天前 | 2610 次浏览 | 分享到:


第二章 基础通用——基础技术

  • AI技术

    • 概述

    • 智能识别技术

    • 生成式AI技术

  • 编解码技术

    • 概述

    • XR中的编解码技术

  • 接口协议

    • 概述

    • XR中的接口协议

  • 数据格式

    • 概述

    • XR中的3D数据格式

  • 空间计算


第二章 基础通用——基础软件


AI技术


1

概述

人工智能(Artificial Intelligence,AI)技术是一种模拟人类智能的技术,通过模拟人类的认知和决策过程,使计算机系统能够感知、理解、学习和推理。它包括机器学习、自然语言处理、计算机视觉等领域,能够处理和分析大量的数据,并从中提取有用的信息和知识,以支持自主决策和智能行为。

在XR产业中,基于人工智能技术的识别技术和生成技术为XR应用带来了全新的维度。人工智能技术可以通过对用户的姿态和动作进行识别和分析,实现对用户在XR环境中的实时交互和控制。通过自然语言处理技术,XR应用可以实现与用户的自然语言对话和交流。生成能力可以用于虚拟场景、虚拟角色和虚拟物体的自动生成。人工智能技术使XR应用更加智能、真实,从而推动XR产业的发展,为用户带来更加丰富和优质的虚拟体验。

2

智能识别技术

在虚拟现实中使用智能识别技术能够减少用户对传统输入设备的依赖,操作更加简便。例如使用语音命令与控制,支持用户在虚拟环境中通过语音实现“打开菜单”、“放大”等命令。同时在虚拟环境中,语音识别可以实现与虚拟角色的自然对话,为用户提供更为真实和沉浸式的社交体验。通过手势识别,使用户能够在XR环境中通过简单的裸手手势进行交互,如挥手、抓取、点选等动作,为用户提供了一种直观、自然的交互方式。在AR应用中,手势识别可以实现与真实环境中的物体进行互动,如通过手势来操控虚拟物品或触发特定事件。

尽管语音识别和手势识别在XR中展现出了巨大的潜力,但仍面临一些技术挑战,如识别准确性、交互稳定性、延迟问题以及不同用户间的差异性等等。为了克服这些挑战并推动技术的成熟与应用,标准化工作显得尤为重要。

手势识别方面,全国信标委计算机图形图像处理及环境数据表示分会(TC28/SC24)研究制定GB/T 38665.1-2020《信息技术 手势交互系统 第1部分:通用技术要求》和GB/T 38665.2-2020《信息技术 手势交互系统 第2部分:系统外部接口》两项国家标准,规定了触摸手势、笔手势、空中手势等三类交互方式,以及三类交互方式下捕捉、识别系统的技术要求、接口类型和相关参数。

ISO/IEC JTC 1/SC35制定了ISO/IEC 30113系列标准,提供了跨设备和平台的手势交互的通用框架和规范,涵盖了手势识别、生成和理解的通用方法,标准清单见表5。

表5 ISO/IEC 30113系列标准清单

标准号

标准名称

ISO/IEC 30113-1:2015

信息技术 用户界面 跨设备和方法的基于手势的界面 第1部分:框架

ISO/IEC 30113-5:2019

信息技术 用户界面 跨设备和方法的基于手势的界面 第5部分:手势界面标记语言(GIML)

ISO/IEC 30113-11:2017

信息技术 跨设备和方法的基于手势的界面 第11部分:通用系统操作的单点手势

ISO/IEC 30113-12:2019

信息技术 用户界面 跨设备和方法的基于手势的界面。第12部分:通用系统操作的多点手势

ISO/IEC 30113-60:2020

信息技术 跨设备和方法的基于手势的界面 第60部分:屏幕阅读器手势的通用指南

ISO/IEC 30113-61:2020

信息技术 跨设备和方法的基于手势的界面 第61部分:屏幕阅读器的单点手势

语音识别方面,全国信标委用户界面分委会(TC28/SC35)制定了智能语音交互GB/T 36464和GB/T 41813系列标准,规定了智能语音交互系统通用功能架构、移动智能语音交互系统的术语定义和系统框架以及要求和测试方法。

《国家新一代人工智能标准体系建设指南》和《国家人工智能产业综合标准化体系建设指南(2024版)》都提出要建设自然语言处理、智能语音、计算机视觉、生物特征识别、人机交互/人机混合增强现实等关键技术标准,推动人工智能技术创新和应用。


3

生成式AI技术

2024年2月,OpenAI发布了文生视频人工智能模型Sora,引起了广泛关注。OpenAI将ChatGPT所用的Transformer算法,与扩散模型相融合,形成了新的底层算法模型DiT,使Sora实现了对语言的深刻理解,在视频生成上表现出了很强的“涌现”能力。

创建丰富和高体验度的虚拟和虚实结合内容与场景,需要投入高昂的人力、物力和时间成本,极大限制了创新速度和规模,是元宇宙发展的关键瓶颈。生成式AI技术将为XR的3D模型、场景、动作和脚本的创建提供前所未有的自由度,让开发者能够专注于用户体验创新,实现高质量XR内容、场景和虚拟世界的快速构建。

此外,XR中的虚拟场景、人物,需要与用户进行有效的实时交互,提供高度定制化的体验感。传统方法只能实现预设式的基本交互功能,而生成式AI技术基于大语言模型架构,可以为XR场景与用户之间的虚实交互提供更加自然的交互方式、更流畅的场景和角色切换,让用户感受到与现实世界相匹配甚至超现实的沉浸式体验。

在国内,标准化工作也在积极推进以支持这一技术的发展。全国信标委人工智能分委会(TC28/SC42)发布GB/T 42382.1-2023《信息技术 神经网络表示与模型压缩 第1部分:卷积神经网络》,规定了卷积神经网络(Convolutional Neural Network, CNN)离线模型的表示与压缩过程,以保证人工智能技术的跨平台可操作性,并提升模型复用效果,从而带动人工智能产业的健康、快速发展。该标准是国内首个面向人工智能生成模型的国家标准。此外,《信息技术 神经网络表示与模型压缩 第2部分:大规模预训练模型》(计划号:20230717-T-469)和《信息技术 神经网络表示与模型压缩 第3部分:图神经网络》(计划号:20230718-T-469)正在起草过程中。

全国网络安全标准化技术委员会(TC260)正在起草生成式AI数据和服务安全方面国家标准,如《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(计划号:20242095-T-469)、《网络安全技术 生成式人工智能数据标注安全规范》(计划号:20242097-T-469)、《网络安全技术 生成式人工智能服务安全基本要求》(计划号:20241752-T-469)。

国际上ISO/IEC JTC1/SC42负责人工智能标准化工作,重点围绕数据质量与治理、可信与安全展开研制工作。此外,在第27届联合国科技大会期间,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。其中,《大语言模型安全测试方法》由蚂蚁集团作为牵头单位。


编解码技术


1

概述

在虚拟现实产业中,音视频编解码技术主要应用于沉浸式媒体内容源的获取编码、封装、传输、解码及呈现交互。如下图所示。

图片

图 2 音视频编解码技术框架

其中,视觉方面主要包含4K/8K超高清视频、全景视频、自由视点视频、点云、3D网格(3D Mesh) 等视频流;听觉方面包含沉浸式音频流。

2

XR中的编解码技术

视频编码

1)超高清视频编码

超高清视频通常指4K/8K分辨率的视频内容,支持高帧率(HFR,如100fps、120fps)、高动态范围(HDR)、广色域(WCG)。超高清视频对应的超高数据量和超大带宽,对压缩效率和时延也提出了更高的需求。基于此,国内外标准工作组织,如ISO/IEC JTC 1/SC 29(音频、图像、多媒体及超媒体编码)下设WG5“MPEG联合视频编码”工作组和国内数字音视频编解码技术标准工作组(简称AVS工作组)分别制定了面向超高清视频的新一代视频编解码标准,开放媒体联盟AOM阵营也提出了面向互联网流媒体的开发编码标准AV1。

MPEG最新一代的编码标准VVC(即ITU-T H.266 | ISO/IEC 23090-3)在码率节省50%的情况下,保持与上一代HEVC(即ITU-T H.265 | ISO/IEC 23008-2)标准相似的主观质量。除压缩效率进一步提升之外,VVC的通用性也可以支持如超高分辨率(4K/8K)、高动态范围(HDR)、屏幕内容编码、360度沉浸式视频编码等多种新兴的视频内容与应用。AVS工作组也发布了面向8K超高清视频(UHD)电视广播和VR等新兴应用场景的国内自主视频标准AVS3。最新一代AVS3标准提出了更灵活的扩展四叉树划分方式、更复杂的帧内预测模式,并在帧间预测环节围绕预测结构,预测单元粒度和预测模式等方面进行了优化提升。

另一方面,为了支持更多样化的超高清视频应用场景,比如智慧城市、智能制造、智慧交通、智能视频监控等业务场景,当前业界也开始探索针对机器视觉的新兴编码标准,比如ISO/IEC JTC 1/SC 29下设WG4“MPEG视频编码工作组”正在研制的由中国专家主导的VCM(Video Coding for machine)和FCM(Feature coding for machine)标准项目,以及国内面向机器智能的数据编码标准(DCM)工作组正在研制的DCM(Data coding for machine)标准,通过压缩视频或者是前序任务产生的特征图产生码流,以供机器分析直接使用,支持多种机器视觉任务。

2)全景视频编码

全景视频是当前常见的沉浸媒体格式之一。由于全景视频具有高分辨率、高帧率、数据量大的特点,实现全景视频的低延迟传输需要较高的传输带宽,极大地阻碍了VR相关业务的发展。因此,高效的全景视频编码技术至关重要。ISO/IEC JTC 1/SC 29下设WG3 “MPEG系统”工作组从2015年起开始制定相关标准,提出了全向媒体格式(OMAF),以表示360度媒体内容,包括3DOF全景视频、图像、音频、文本等。

目前,全景视频编码可大致分为两类:传统编码方法和基于FOV的编码方法,前者通常将球面内容投影到二维平面上,再采用视频编码的方法进行编码。后者是指将输入的视频帧划分为相同大小的矩形,每个矩形编码为一个片(Tile)以便并行处理,同时可以Tile为单位拆分码流进行切片分发。

未来,高效的球面-平面的投影、高效的片划分、提高并行处理速度、实现用户姿态变化快速响应及视角自适应动态切换等将是未来全景视频编码技术的重要发展方向。

3)自由视点视频编码

自由视点视频实现了3DoF/6DOF观看体验,相较于其他沉浸媒体,其具有低成本制作、应用场景多等优势。面向自由视点视频,ISO/IEC JTC 1/SC 29/WG4工作组制定了沉浸式视频 (MIV) 标准,提供沉浸式、6DOF立体视觉场景的高效编码,可用于虚拟现实 (VR)、增强现实 (AR) 和混合现实 (MR)。MPEG计划基于视觉体积视频编码V3C的框架进行技术集成和扩展。国内AVS虚拟现实标准工作组 VRU于2019年启动了自由视点视频标准制定工作,开展国家标准《信息技术 虚拟现实内容表达 第2部分:视频》标准制定工作,该标准基于超高清视频编码技术进行自由视点视频压缩,在编码端将多视点图和多深度图直接进行拼接,加上辅助的元数据进行2D视频编码,在终端将基于深度图的处理合成虚拟视点的合成。

MPEG MIV 编码器的输入是多组视频,由一组无序的具有任意位姿(源视角)的真实或虚拟摄像机捕获。来自每个源视角的视频集包含了投影几何信息(深度以及可选的占用图)和属性信息(例如纹理、表面法线、材质贴图、反射率、透明度等)。此外,还提供了每个源视角的元数据,例如相机内外参、投影格式、投影平面尺寸和源视频的位深度(几何和属性)。MIV 编码器将基于几何和属性信息生成属性图集和几何图集,以及基于每个源视角的元数据生成描述图集的元数据。通过生成图集将减少视图间冗余,从而降低编码比特率,同时保持呈现给观众的内容质量,以实现实时的沉浸式视频服务。生成的属性和几何图集使用 2D 视频编码器编码为视频比特流,而元数据使用 MIV 标准编码。

更高效的补丁块生成、深度图生成方法、兼容更多的视频编码器、基于率失真优化的联合比特分配、面向全景内容的非同构视图选择、支持更宽的深度动态范围并实现占用误差校正、降低视点切换的延迟等将是未来自由视点视频编码的技术的发展方向。

4)点云编码

3D点云由一系列点的3D坐标和其对应的属性信息(颜色、反射强度、法向量等)组成。ISO/IEC JTC 1/SC29/WG7“MPEG三维图形和触觉编码”工作组基于点云编码的需求,相继发布了基于视频的点云编码(V-PCC)和基于几何的点云编码(G-PCC)AVS工作组成立了点云工作组,发布了点云编码参考软件(PCRM),其是在 3D 空间对点云进行编码处理。DCM工作组也就面向机器智能的点云编码提出了技术需求,计划开展点云编码相关标准工作。Google也发布了开源库Draco,用于压缩和解压缩 3D 几何网格和点云。

目前,点云编码主要分为两种技术路线:基于视频的点云编码方法和基于几何的点云编码方法。基于视频的点云编码基于视觉体积视频编码V3C的框架,其方法主要涉及块(Patch)划分重组、几何和纹理图像的生成、填充及编码、辅助划分信息以及占位图的编码等新技术。基于几何的点云编码方法主要涉及八叉树表征、属性预处理、属性变换、变换/预测、属性量化、属性熵编码等新技术。

未来,点云编码技术发展将围绕下列方面展开:更高效的几何表征方法及属性预测技术、更灵活的编码速度配置,支持多种延迟场景,比如离线转码、云游戏、视频直播、视频会议等,兼容各终端设备,实现场景自适应,提高编码速度(帧间并行加速、预分析和后处理加速),智能码率控制等。

5)动态3D网格编码

3D网格已成为视觉沉浸媒体主要的数据格式之一。一个3D网格由以下部分组成:拓扑信息、几何信息、映射信息、顶点属性、属性映射。上述五部分中,若任一部分包含时变,即为动态网格。相较于静态网格,一个动态网格序列的数据量更为庞大,因为它包含大量随时间变化的信息。ISO/IEC JTC 1/SC 29/WG7正在计划开发一种新的3D网格压缩标准,用以压缩具有时变拓扑信息和可选时变属性映射的动态网格。该标准面向各类应用场景,如实时沉浸式通信、自由视点视频、AR和VR等。SC 29/WG7计划基于视觉体积视频编码(V3C)的框架进行技术集成和扩展。目前,国内标准工作组暂未开设相关专题组。

未来,3D网格编码技术的发展特点大致如下:支持静态和动态网格编码、支持有损和 无损压缩、支持随机访问、低延迟、具有容错能力、支持并行编码和解。

音频编码

当前,音频编码技术正在向深度学习等人工智能技术相结合的方向发展,通过深度学习算法提高音频编码的压缩码率,降低音频编码的复杂度。同时,为了满足虚拟现实等应用需求,提供沉浸式和虚实融合的应用体验,实现3DoF甚至6DoF的声音感受,灵活适用各类场景,从个性化音频制作到基于场景的个性化渲染回放,高质量、低延迟、自适应可变速率、定位准确的三维声编码技术成为当前音频编码技术的焦点,国内外均针对三维声编解码技术和标准开展了相布局和研究工作。

国际上,ISO/IEC JTC 1/SC 29下设WG6 “MPEG音频组”制定了MPEG-H 3D Audio(ISO/IEC 23008-3)标准,目前正在开展MPEG-I音频编码标准制定工作。其中,MPEG-H 3D Audio可以提供沉浸式和个性化音频服务,而MPEG-I是为虚拟和增强现实应用程序开发的全新标准,以提供更自然、逼真的VR体验。相比 MPEG-H,MPEG-I能够提供更优秀的互动性和沉浸感,并将支持6DOF,用户可以在虚拟空间内移动,并与虚拟空间物品进行交互。3GPP 沉浸式语音及音频服务(IVAS)已于2017年立项,从版本15开始已经演进到版本18,其中包括VR流媒体服务、沉浸式语音及音频编码、提升VR用户体验、边缘计算、场景探索、触觉和媒体服务,SA4沉浸式多媒体类型和内容格式,XR相关业务,QoS、QoE指标等。国内,AVS工作组从2016年起,开始对三维声和互动式音频开展研讨和技术征集,2018年发布GB/T 33475.2《信息技术 高效多媒体编码 第3部分:音频》,支持三维声音频编码;2021年立项国家标准计划《信息技术 虚拟现实内容表达 第3部分:音频》,规定了虚拟现实设备及相关系统中的沉浸式音频内容的表达方式,提出了包括元数据和渲染器的系统构架及接口规范,适用于全景音频录播、沉浸式音频通信、虚拟现实音频交互等领域的音频采集、传输、回放系统;2022年,世界超高清产业联盟(UWA)联合AVS工作组,共同制定面向三维声音频编码的自主编码标准,联合发布T/UWA 009.1—2022年《三维声音技术规范 第1部分:编码分发与呈现》和T/AI 109.3—2023《信息技术 智能媒体编码 第 3 部分:沉浸式音频》,即三维菁彩声Audio Vivid/AVS3P3音频标准。三维菁彩声(Audio Vivid)针对不同的信号类型采用不同的技术工具对输入信号进行编解码。采用多声道编码技术去除多声道信号间的信息冗余。采用HOA空间编码技术去除HOA各声道信号间的空间几何信息冗余。采用基于心理声学模型的预处理和基于AI的量化,熵编码技术去除单声道、对象音频信号中的信息冗余。通过扬声器或耳机完成最终渲染输出。


接口协议


1

概述

随着虚拟现实产业的蓬勃发展与广泛应用,设备与设备之间、软件与设备之间的数据交互越来越被建设者和使用者所重视,从而构建一套标准的数据传输协议规范在虚拟现实设备、软件和平台之间得到了广泛关注。通过这些接口协议,不同厂商、不同技术的虚拟现实设备和软件之间可以互相通信,并为开发者构建跨平台的虚拟现实应用内容提供数据传输基础支撑。

国外已经在虚拟现实接口协议的标准化方面积累了一定经验,其中OpenXR作为一个开放标准受到了全球范围内的广泛关注和采用,为不同厂商的虚拟现实设备提供了互操作性。而其他一些厂商构建了平台和SDK工具,在市场中也具有较大的影响力,例如SteamVR、Oculus SDK和Viveport SDK。这些接口协议SDK工具通常提供了丰富的功能和接口,支持设备跟踪、数据传输、手柄交互和空间定位等,为开发者提供了强大的工具来创建沉浸式的虚拟现实内容的同时记录了操作的整个过程数据。

然而,虚拟现实设备之间的互操作性、数据传输兼容性仍然存在一些问题和瓶颈,包括不同厂商设备之间的接口差异、设备性能的差异以及软件兼容性差异等。这些问题使得开发者在跨设备开发和用户体验方面面临挑战,限制了虚拟现实技术的进一步应用。因此,业界对于统一虚拟现实设备接口标准有着迫切的需求,以解决设备间的通信问题,并推动虚拟现实技术的更广泛应用,积极促进虚拟现实产业发展。

2

XR中的接口协议

在XR应用中接口协议技术主要用于实现设备、应用程序和系统之间的通信和交互。XR应用中常见的接口协议技术包括OpenXR、WebXR等。

OpenXR是由Khronos Group开发的开放式、跨平台的XR接口标准。它旨在提供一个统一的接口,使开发者能够在不同的XR设备上编写一次代码,实现跨平台的兼容性和可移植性。

WebXR是基于Web技术的XR接口标准,允许在Web浏览器中访问和使用虚拟现实内容。WebXR通过JavaScript API提供了对XR设备的访问和控制,使开发者能够在浏览器中创建交互式的虚拟现实和增强现实应用。

SteamVR是由Valve开发的虚拟现实平台,OpenVR是其开放的接口标准。SteamVR/OpenVR提供了与虚拟现实设备的交互和控制的接口,使开发者能够创建适用于SteamVR平台的虚拟现实应用。

Oculus SDK是由Oculus VR开发的软件开发工具包,用于开发适用于Oculus虚拟现实设备的应用程序。它提供了与Oculus设备的交互和控制的接口,包括头部追踪、手部追踪、眼部追踪等功能。

ARKit是由Apple开发的增强现实开发工具包,ARCore是由Google开发的增强现实平台。它们提供了与增强现实设备的交互和控制的接口,使开发者能够创建适用于iOS和Android平台的增强现实应用。

这些接口协议技术为开发者提供了与XR设备的交互和控制的标准化接口,简化了开发过程,并增加了应用程序的兼容性和可移植性。通过这些接口协议技术,开发者能够更加方便地创建丰富、交互性强的XR应用,提供更好的用户体验。


3D数据格式


1

概述

三维数据格式是指用于存储和处理三维数字内容的格式和技术,包括模型数据格式、材质数据格式、动画数据格式等。模型数据格式用于描述和存储三维模型的几何形状、拓扑结构和纹理信息,如OBJ、FBX、STL等。材质数据格式用于描述和存储三维模型的材质属性和纹理贴图,如JPEG、PNG、TGA等。动画数据格式用于描述和存储三维模型的动画效果和运动轨迹,如BVH、FBX、GIF等。这些三维数据格式和技术为三维数字内容的创建、编辑、存储和交流提供了基础和标准化的支持,使得不同软件和平台之间能够无缝地共享和使用三维数据,促进了三维内容的创作、生产和应用的发展。

2

XR中的3D数据格式

在XR中,常见的3D数据格式有以下几种:

OBJ(Wavefront OBJ):OBJ是一种广泛使用的开放标准的3D模型文件格式。它可以包含几何形状、纹理映射、材质信息等。

FBX(Filmbox):FBX是一种由Autodesk开发的专有3D文件格式,广泛用于游戏开发和虚拟现实应用。它支持几何形状、材质、动画、骨骼等多种数据。

STL(Stereolithography):STL是一种用于3D打印的文件格式,它描述了物体的几何形状,通常由三角面片构成。

glTF(GL Transmission Format):glTF是一种开放标准的3D文件格式,设计用于在Web和移动平台上实时渲染。它支持几何形状、材质、动画等数据,并且文件大小相对较小。

USD(Universal Scene Description):USD是一种由Pixar开发的通用场景描述格式,用于在动画制作和特效领域共享和交换3D数据。它支持复杂的层次结构、多个变体和参考。

这些格式在XR应用中具有不同的特点和用途,开发者可以根据具体需求选择适合的格式来处理和展示3D数据。


空间计算


空间计算最早应用于卫星定位系统和地理信息系统等宏观领域,是指对地图及其他地理位置数据进行计算和分析以实现定位与测量的技术。随着XR、虚拟数字人等技术发展,微观空间的计算需求也在逐渐增加。苹果发布的最新一代XR产品Vision Pro,其典型特点之一就是更加深度地采用了空间计算技术及号称“空间计算操作系统”的Vision OS。

空间计算被认为是构建元宇宙等虚拟世界的基础技术之一。空间计算的核心技术包括三维重建、空间感知、用户感知和空间数据管理等,实现用户在没有传统输入设备(如键盘和鼠标)的情况下,通过语音、视觉、手势等更自然的交互方式与周围环境进行身临其境的交互。在XR交互应用中,空间计算不仅包括用户的身体感知,如头部、手势、眼球、表情和腿的定位,还包括对环境的感知,即通过精确计算让用户知道周边物体的形状、大小、位置等。基于这些精准计算,虚拟物体可以被放置在现实世界中,并与现实世界高度融合。


第三章 内容生产——内容采集

  • 全景拍摄
    • 全景拍摄设备

    • 全景拍摄流程

  • 三维扫描

    • 三维扫描仪

    • 三维扫描流程
  • 动作捕捉   

    • 动作捕捉概述

    • 动作捕捉外设
  • 采集数据处理

    • 全景视频处理

    • 点云数据处理

    • 纹理数据处理

  • 三维声场麦克风

  • 相关标准化情况


第三章 内容生产——内容采集


全景拍摄

全景摄像是利用实景拍摄设备对环境的全景图像以720度(水平360度,上下360度)立体全方位视角进行拍摄采集的过程。后期再通过合成技术将这些图像拼接成一个完整的全景画面,并在计算机、移动终端、虚拟现实设备或互联网上呈现。当用户观看这些全景画面时,他们会有一种身临其境、置身其中的感觉,仿佛真的置身于实际拍摄现场。


1

全景拍摄设备

全景拍摄一般需要一种或多种拍摄设备,包括一体式全景相机和多机组合拍摄两种类型。

一体式全景相机

一体式全景相机是一种成像视角可以覆盖整个球面或者至少可以覆盖水平面上环形视野的相机,可以捕捉到从各个方向落入焦点的光线,其360°的视野在三维场景建模具有广泛的应用。一体式全景相机一般由多个内置的超广角/鱼眼镜头组成,是目前沉浸式视频/VR/全景视频常用的拍摄设备,包括单目全景相机、双目全景相机、四目全景相机、六目全景相机、八目全景相机等。代表机型包括三星Gear360Insta360Gopro MAX等。
一体式全景相机的优点是系统整合度高,便于现场操作,易于后期制作及直播;机内各镜头和图像传感器的参数及帧同步等工作在机内完成;现场拍摄时只需全局配置拍摄参数;统一供电,统一I/O;体积较小,重量较轻,可配合各种轨道、吊索、无人机等进行拍摄;大部分一体化全景相机可以进行机内实时拼接、实时监看,可用于不要求极致画面质量的直播等场景;相机厂家一般会提供匹配相机参数的定制化软件,拼接效率较高。
一体化全景相机的缺点是受集成度限制,图像传感器小,成像质量一般,对环境光线要求高。目前性能最好的专业级一体化全景相机可拍摄(拼接后能达到)最高8K 10bit 30fps8K 8bit 60fps11K 8bit 30fps的全景视频。

多机组合拍摄

多机组合拍摄是采用多种相机+镜头的组合,包括单反数码相机+鱼眼镜头+全景云台+三脚架、智能手机+鱼眼镜头+全景云台+三脚架、运动相机组合等。
多机组合拍摄要求多种相机+镜头在同一时间、同一位置分别拍摄不同角度有部分重叠的画面,然后将采集到的多角度图像进行拼接以得到完整的360°全景画面。其优势在于使用了多个具备较高参数的摄像机采集图像,获得的图像具有较高的分辨率、动态范围和彩色量化深度,多用于对图像质量有很高要求、能够承受后期复杂制作流程的应用场景。其缺点在于需要使用比较复杂笨重的多机支架;实际拍摄中对于场地、移动要求较高;拍摄前需要对各个摄像机、镜头等进行匹配调整;拍摄完成后各机位采集的素材需要进行时间码对齐、色彩统一调整、图像拼接缝合等处理才能形成全景图像。
通常,全景拍摄图片分辨率包括4K(3840*1920px)、6K(5760*2880px)、8K(7680*3840px)、12K(11520*5760px)等;全景拍摄视频分辨率及帧率包括4K(3840*1920@30/60fps)、6K(5760*2880@30/60fps)、8K(7680*3840@30/60fps)、12K(11520*5760@30fps)等。


2

全景拍摄流程

持全景相机,按照规划路线,将整个区域进行全景拍摄的过程。针对一个较大范围场景,全景拍摄一般需要预先设计好拍摄方案,包括拍摄路线规划、拍摄区域划分、拍摄时间规划、拍摄高度和角度确定、拍摄速度控制以及局部补充采集。
(1)采集路线规划:提前根据室外地图或者室内平面图设置起点和终点,规划和标注大致采集线路,或者直接在现场熟悉环境后规划采集路线,并做好及时回环,尽量从更全面的角度对场景进行采集拍摄。
(2)拍摄区域划分:拍摄区域较大,需要把区域划分成若干小的子区域,按照拍摄面积、楼层、功能区等因素将拍摄区域进行划分。
(3)拍摄时间规划:由于光照条件对场景拍摄的存在较大的影响,需要提前规划好不同区域的拍摄时间,确保在光照条件较好的环境下拍摄。
(4)拍摄高度和角度确定:由于全景拍摄需要尽量对场景更全面的角度进行采集拍摄,所以需要对不同高度、角度反复采集,需要预先确定好对应场景的拍摄高度和角度。
(5)拍摄速度控制:由于考虑到全景拍摄的稳定性,保证全景拍摄质量,需要在拍摄过程中,保持较低的速度状态下平稳进行,避免快速跑动、上下跳动或者大幅晃动摄像机。
(6)局部补充采集:由于采集过程中某些场景采集不够细致或在部分场景中发生了较大变化时,需要对变化区域进行补采。


三维扫描


三维扫描是利用三维扫描仪等全景扫描设备对场景信息进行扫描采集的过程。实景扫描设备包括利用激光雷达、结构光成像等技术的空间测量和扫描设备,其中以三维扫描仪为主。

 三维扫描仪

在虚拟现实领域,三维扫描仪用于侦测并分析现实世界中物体的形状(几何构造)与外观数据(如颜色、表面反照率等性质),得到物体表面的点云信息并转化为计算机可以直接处理的数据用于三维重建计算,在虚拟世界中创建实际物体的数字模型,从而创造逼真的虚拟现实物体、环境和人物。

三维扫描仪分为接触式和非接触式两种。接触式扫描仪主要使用各种不同直径和形状的探针(或称为接触测头)沿被测物体表面运动,被测表面的反作用力使探针发生形变。这种形变触发测量传感器,将测出的信号反馈给测量控制系统,经计算机进行相关的处理得到所测量点的三维坐标。
非接触式三维扫描仪主要基于光学原理、以计算机图像处理为主要手段的三维自由曲面非接触式测量技术,因此又称为光学三维扫描仪。光学三维扫描仪具有非接触、无损伤、高精度、高速度以及易于在计算机控制下实行自动化测量等一系列特点,已经成为现代三维面形测量的重要途径及发展方向。光学三维扫描仪按是否投射主动光源的测量方法不同,可分为被动式、主动式、主动与被动相结合的三维扫描仪。
被动式光学三维测量方法主要以立体视觉法为主,根据相机的数量分别有双目、三目和多目立体视觉法;主动式三维测量方法是利用附加光源(称为主动光源)照射被测物体,根据主动光源的已知信息获取物体的三维信息,可分为干涉法和非干涉法,其中在光学三维扫描仪常用的是非干涉法,又分为飞行时间法和结构光法,其中结构光法包括直接三角法和光栅相位法;主动与被动相结合的三维测量方法通过投射主动光来辅助进行双目立体视觉中的特征匹配环节,根据投射的主动光源类型的不同,又分为两种方法:双目立体视觉法与光栅条纹结构光法相结合,以及双目立体视觉法与其他图样结构光法相结合。
目前,三维扫描产业正处于飞速发展的时期,国内市场上不同品牌,不同类型的光学三维扫描仪产品不断涌现,型号丰富,迭代速度快。这些产品的类型根据应用需求的不同,主要可分为手持式三维扫描仪、拍照式三维扫描仪、桌面式三维扫描仪。
手持式三维扫描仪主要采用双目立体视觉与多线结构光相结合的方法,仪器由多线激光或LED 光源发射器和双目相机组成,仪器重量一般在1 kg 以下。扫描速率最高可达210 万点秒,单幅扫描面积一般为600 mm×550 mm 左右,扫描精度最高可达0. 01 mm
拍照式三维扫描仪主要采用双目立体视觉与编码结构光法相结合的方法,仪器硬件主要由编码结构光投影装置和一组或多组双目相机组成,编码方式多采用光栅条纹结构光,多组间距不同的双目相机用于调整不同的扫描面幅,双目相机间距越大,扫描面幅越大,同时扫描点距越大,测量精度越低。拍照式光学三维扫描仪的重量比手持式重很多,扫描面幅小于手持式仪器,一般装配于支架云台上或搭配机械臂、机器人平台使用,以便于从不同角度扫描物体,其扫描精度优于手持式仪器,最高可达0. 005 mm
桌面式三维扫描仪主要采用线激光直接三角法,扫描精度比手持式和拍照式产品低,仪器的一体化机身小巧便携,可直接放置于桌面上,将物品放置于载物转台上即可方便地进行扫描,主要功能定位为小型物品的快速简便化扫描。

 三维扫描流程

三维扫描方式包含地面固定/移动点位扫描采集、空中固定/移动点位扫描采集等半自动人工辅助多点采集、全自动采集方式。下面以一般的地面三维扫描作业为例,对三维扫描流程进行介绍。
三维扫描应包括技术准备与技术设计、数据采集、数据预处理、成果制作、质量控制与成果归档。其中,三维数据采集流程包括控制测量、扫描站布测、标靶布测、设站扫描、点云数据采集、纹理数据采集、数据检查、数据导出备份等过程。
1)点云数据采集:点云数据是三维空间中所有点的位置和属性信息的集合,它是三维模型的基础。点云数据采集是指使用三维扫描仪等设备,获取物体或场景表面的点云数据的过程。
三维扫描仪应按架设扫描站、建立扫描项目、扫描范围设置、点间距或者采集分辨率设置、开始扫描等步骤操作;应根据项目名称、扫描日期、扫描站号等信息命名扫描站点,存储扫描数据,并在大比例地形图、平面图或草图上标注扫描站位置;扫描过程中出现断电、死机、仪器位置变动等异常情况时,应初始化扫描仪,重新扫描。扫描作业结束后,应将扫描数据导入电脑,检查点云数据覆盖范围完整性、标靶数据完整性和可用性。对缺失和异常数据,应及时补扫。
2)纹理数据采集:纹理信息是描述物体或场景表面特征的重要信息,它可以用来增强三维模型的真实感和逼真度。纹理数据采集是指使用相机等设备,获取物体或场景表面的纹理信息的过程。
纹理数据采集过程应检查相机的状态,确保相机正常工作。根据扫描目标的形状和大小,选择合适的采集方法和参数,图像的拍摄角度应尽可能保持镜头正对目标面。无法正面拍摄全景时,先拍摄部分全景,再逐个正对拍摄,后期再进行合成。


动作捕捉


1

概述

动作捕捉是指记录和处理人或其他物体运动的技术。一般通过多个摄影机捕捉真实演员的动作后,将这些动作还原并渲染至相应的虚拟形象身上。
动作捕捉系统通过输入设备采集原始数据,经过位姿计算后,输出格式化的人体姿势信息,包括人体位姿、手部位姿和脸部位姿。这些数据被应用程序接收,进行业务逻辑处理,控制输出设备发送信号,从而展示用户可视化的人体位姿结果。
动作捕捉包括惯性动作捕捉和光学动作捕捉。惯性动作捕捉是指使用惯性传感器捕捉人体运动的技术。惯性传感器可以测量人体运动的加速度、角速度等数据。根据这些数据,可以计算人体的位置和姿态;光学动作捕捉是指使用摄像机捕捉人体运动,并根据运动计算人体的位置和姿态的技术。


动作捕捉外设

动作捕捉外设主要用于追踪、精确测量并记录身体或物件在三维空间中的轨迹,然后将记录的数据进行处理,最终构建虚拟的三维角色。根据动作捕捉技术类型,动作捕捉外设主要可以分为两种类型:
(1)惯性动作捕捉设备
惯性动作捕捉设备主要利用惯性传感器对人体主要骨骼部位的运动进行实时测量。这种设备不受光线限制,因此无需固定的动作捕捉工作室,可以在任何时间和地点进行操作使用。
惯性动作捕捉设备优点在于设备成本相对较低,系统相对简单,安装和使用也更加容易,不受环境光线的影响,可以捕捉人体在任何环境中的运动,这使得其在应用范围上更加灵活。
惯性动作捕捉设备缺点在于捕捉精度受到惯性传感器的制造工艺和材料等因素的限制,并且惯性传感器在测量物体运动时,会存在一定的累积误差,这些误差会随着时间的推移而逐渐积累,最终会影响捕捉结果的准确性。从动作捕捉精度、实用性、技术成熟性等角度来讲,不如光学系统。
(2) 光学动作捕捉设备
光学动作捕捉设备则是使用摄像机捕捉物体表面的运动,并根据运动计算物体的位置和姿态。通过在演员身上标记点反射到不同位置的摄像机获得成像信息,进而测算出标记点在空间中的运动轨迹。这种设备对室内空间的要求较高,而且价格也比较昂贵。
光学动作捕捉设备优点在于:一是捕捉精度高,光学动作捕捉系统可以利用摄像机捕捉物体表面的运动,并根据运动计算物体的位置和姿态,光学动作捕捉系统的捕捉精度可以达到亚毫米级别;二是可以捕捉物体在运动中的细微变化。光学动作捕捉系统可以捕捉物体在运动中的细微变化,这使得其在一些需要高精度捕捉的场景下得到了广泛应用。
光学动作捕捉设备缺点在于:一是系统部署需要相对花费很高的时间成本部署及维护,受到环境光线干扰影响较大,无法快速迁移复制;二是光学动捕系统的设备成本相对较高,需要高精度的摄像头及框架,安装和使用也更加困难,操作相对复杂且专业。


采集数据处理


采集的数据包括全景视频、三维点云数据、纹理数据等类型的原始素材。主流图片类型包括JPEGPNGBMP等,主流视频类型包含MP4MOVAVIWebMFLVRMVB等,主流三维模型显示表示格式包括OBJFBX3Dmax等,主流三维模型隐式表示包括基于神经网络的NeRFSDF等。

此外,将采集到的三维数据进行处理和整合,以便进行后续的分析和应用。这一步骤主要包括数据文件的格式转换、区域划分、要素分类、时间排序、冗余数据处理,确保采集到的全景数据覆盖场景,通过对数据进行处理,可以提高数据的质量和完整性,为后续的三维模型生成提供可靠的数据基础。

1

全景视频处理

在从全景拍摄设备中采集得到空间中不同方位所对应的视频序列后,多个视频序列需要通过拼接与融合技术生成最终的全景视频。全景视频拼接的整体流程包括:

 图像预处理

图像预处理指的是对上述全景拍摄设备采集到的视频序列进行一些常见的图像处理操作,如对图像进行亮度及色彩校正以避免由于拍摄时的一些因素导致的设备焦距不同、曝光参数不同、白平衡不同的问题,如对图像进行去噪处理以去除图像中的高频噪声。这一步中没有固定的操作,而是应该根据序列的特性选用合适的算法进行处理。

图像配准

由于拍摄视角、角度、分辨率、光照等参数的差异,因而待拼接的若干幅图像之间在位置平移、方向旋转、尺度变换、变形扭曲等方面存在一定区别。图像配准过程,就是采用一定的匹配策略,寻找待拼接图像中的特征点在参考图像中的位置,从而得出最能描述待拼接图像之间映射关系的变换模型。常用的变换模型有平移变换模型、刚性变换模型、仿射变换模型及投影变换模型等等。

图像变换

图像变换指的是将配准后的视频图像进行变换,在通过上述配准操作找到变换矩阵并计算出矩阵中各个参数的值,然后将待拼接的图像变换到参考图像的坐标系中,完成统一的坐标变换,以满足拼接的需要。图像变换可以包括旋转、缩放、平移等操作。

图像融合

由于拍摄参数的影响,不同视频序列间在亮度上存在一些差异,因此拼接后会产生拼接缝隙,另外配准的误差也会导致视频序列的重叠区域会存在“鬼影”等瑕疵。图像融合就是将若干图像中的场景综合成一个场景的过程,经过图像融合后,上述瑕疵可以得到一定程度的消除,从而得到重构的全景视频序列

2

点云数据处理

点云数据处理是指对原始点云数据进行加工、清理、融合、重构等操作,以生成满足特定应用需求的三维模型或其他数据集的过程。点云数据处理的流程一般包括以下几个步骤:

点云预处理

对原始点云数据进行格式转换、选择、删除、降噪、抽析、平滑、采样、缺失点填充等操作,将不同格式的点云数据转化为统一格式,以提高数据的质量和可用性。

特征提取

从点云数据中提取各种特征,如表面法向量、曲率、特征点等。这些特征可以通过计算点云数据的局部几何信息来实现,为后续的点云数据处理提供重要的信息。

点云配准

将两个或多个点云数据集在相同坐标系下进行对齐,使得它们在空间中具有一致的位置和姿态。在实际应用中,往往需要将多个点云数据进行配准,以获得更加完整的三维模型。数据配准可以通过计算点云数据之间的变换矩阵实现,也可以采用ICP算法、特征匹配等方法。

数据重建

将点云数据转化为三维模型的过程。数据重建可以通过网格化、体素化等方法实现。网格化可以将点云数据转化为三角网格模型,体素化可以将点云数据转化为体素模型。数据重建可以为后续的三维建模、虚拟现实等应用提供基础。

3

纹理数据处理

纹理数据处理的目的是保证处理后的图像与实地情况相符,真实反映实际材质的图案、质感、颜色及透明度。纹理数据处理的流程一般包括以下几个步骤:

图像色调调整

图像出现曝光过度、曝光不足、阴影、相邻图像间的色差等现象时,应进行色调调整,色彩纠偏,保持图像反差适中、色调一致。

变形纠正

因视角或镜头畸变引起变形,应对图像的变形部分作纠正处理。

图像配准

图像配准时,应保证图像细节表现清晰,无配准镶嵌缝隙。

格式转换

将处理后的图像转换为通用的文件格式。


三维声场麦克风

三维声麦克风可捕获 360° 环绕声,应用于虚拟现实、声音设计、沉浸式音频和实验性录音。典型产品是麦克风领域的开拓者 SoundField(首款商用三维声麦克风的发明者)和 RØDE合作推出的NT-SF1。

三维声场麦克风由四个紧密排列的心形或心形(单向)麦克风胶囊组成,排列成四面体。它可以充当单声道、立体声或环绕声麦克风,并且还可以选择包含高度信息。每个麦克风的模式可以是全向、心形、超心形、八字形或介于两者之间的任何类型。声场麦克风套件由麦克风和信号处理器组成,可产生称为A格式和B格式的两组不同的音频信号。声音处理器是专用硬件或运行软件的计算机。软件处理可以在录制期间或离线时实时执行。

A格式由声场麦克风本身产生,由来自麦克风胶囊的四个信号组成。A格式通常被转换为第二组音频信号,即B格式。根据麦克风型号,此转换可以通过硬件或软件完成。B格式由四个信号组成:(1)W:对应全向麦克风输出的压力信号;(2)X:对应从前到后的方向信号;(3)Y:对应从左到右的方向信号;(4)Z:对应从上到下的方向信息。在后期制作中,B格式录音也可以解码到放置在水平和垂直平面上的任意数量的扬声器。

相关标准化情况


三维扫描方面,行业标准SJ/T 11886-2023《结构光手持式三维扫描仪》详细规定了结构光手持式三维扫描仪的技术要求、试验方法、质量评定程序以及标志、包装、运输、贮存流程的操作规范。团体标准《虚拟现实VR激光雷达三维扫描相机技术规范》规定了虚拟现实(VR)激光雷达三维扫描相机的设备组成、技术要求和试验方法等。该标准还涉及设备的外观设计、性能稳定性以及安全性等方面的技术要求,并提供了具体的试验方法。国家标准GB/T 23698-2023《三维扫描人体测量方法的一般要求》规定了使用三维表面扫描系统采集人体体形数据的规则,并且涉及从三维扫描图像中提取人体尺寸项目的具体操作。
动作捕捉方面,已发布T/UWA 022.1-2023《信息技术 面向虚拟现实应用的人体动作捕捉系统 第1部分通用技术要求》、T/UWA 022.3-2023《信息技术 面向虚拟现实应用的人体动作捕捉系统 第3部分:惯性动作捕捉系统软件接口标准》。该标准为系列标准,由北京理工大学牵头研制。目前《信息技术 面向虚拟现实应用的人体动作捕捉系统 2部分:大范围光学动作捕捉系统软件接口标准》正在研制。这些标准面向虚拟现实应用的人体动作捕捉系统,规定了通用的功能要求和性能要求、惯性动作捕捉系统的外部软件接口等,适用于惯性动作捕捉系统与外部系统软件接口的研发、应用和维护。国际层面,ISO/IEC JTC 1一直致力于开发与动作捕捉技术实现相关的标准,目前已发布类人动画系列标准,用于三维化身的表示、可视化和信息处理:ISO/IEC 19774-1类人动画(HAnim)架构定义了一个人形数据结构,用于动作捕捉数据投射到人体模型ISO/IEC 19774-2类人动画运动数据动画可用于生成和交换人形动画。最近,由我国主导提出的《动作捕捉》国际标准正计划并入类人动画标准体系。动作捕捉在扩展现实提高用户体验和互动性上至关重要,TC28/SC24正在积极推动相关国家标准与国际标准研制。
实景拍摄、动作捕捉是扩展现实内容生产重要方式,其中涉及的内容采集流程、采集数据格式、音视频采集设备都是关键环节,也是未来标准化的重要方向。相关标准的制定将提高内容生成效率,推动行业规范化发展。