本
篇
提
纲
第二章 基础通用——基础技术
AI技术
概述
智能识别技术
生成式AI技术
编解码技术
概述
XR中的编解码技术
接口协议
概述
XR中的接口协议
数据格式
概述
XR中的3D数据格式
空间计算
第二章 基础通用——基础软件
AI技术
1
概述
人工智能(Artificial Intelligence,AI)技术是一种模拟人类智能的技术,通过模拟人类的认知和决策过程,使计算机系统能够感知、理解、学习和推理。它包括机器学习、自然语言处理、计算机视觉等领域,能够处理和分析大量的数据,并从中提取有用的信息和知识,以支持自主决策和智能行为。
在XR产业中,基于人工智能技术的识别技术和生成技术为XR应用带来了全新的维度。人工智能技术可以通过对用户的姿态和动作进行识别和分析,实现对用户在XR环境中的实时交互和控制。通过自然语言处理技术,XR应用可以实现与用户的自然语言对话和交流。生成能力可以用于虚拟场景、虚拟角色和虚拟物体的自动生成。人工智能技术使XR应用更加智能、真实,从而推动XR产业的发展,为用户带来更加丰富和优质的虚拟体验。
2
智能识别技术
在虚拟现实中使用智能识别技术能够减少用户对传统输入设备的依赖,操作更加简便。例如使用语音命令与控制,支持用户在虚拟环境中通过语音实现“打开菜单”、“放大”等命令。同时在虚拟环境中,语音识别可以实现与虚拟角色的自然对话,为用户提供更为真实和沉浸式的社交体验。通过手势识别,使用户能够在XR环境中通过简单的裸手手势进行交互,如挥手、抓取、点选等动作,为用户提供了一种直观、自然的交互方式。在AR应用中,手势识别可以实现与真实环境中的物体进行互动,如通过手势来操控虚拟物品或触发特定事件。
尽管语音识别和手势识别在XR中展现出了巨大的潜力,但仍面临一些技术挑战,如识别准确性、交互稳定性、延迟问题以及不同用户间的差异性等等。为了克服这些挑战并推动技术的成熟与应用,标准化工作显得尤为重要。
手势识别方面,全国信标委计算机图形图像处理及环境数据表示分会(TC28/SC24)研究制定GB/T 38665.1-2020《信息技术 手势交互系统 第1部分:通用技术要求》和GB/T 38665.2-2020《信息技术 手势交互系统 第2部分:系统外部接口》两项国家标准,规定了触摸手势、笔手势、空中手势等三类交互方式,以及三类交互方式下捕捉、识别系统的技术要求、接口类型和相关参数。
ISO/IEC JTC 1/SC35制定了ISO/IEC 30113系列标准,提供了跨设备和平台的手势交互的通用框架和规范,涵盖了手势识别、生成和理解的通用方法,标准清单见表5。
表5 ISO/IEC 30113系列标准清单
标准号 | 标准名称 |
ISO/IEC 30113-1:2015 | 信息技术 用户界面 跨设备和方法的基于手势的界面 第1部分:框架 |
ISO/IEC 30113-5:2019 | 信息技术 用户界面 跨设备和方法的基于手势的界面 第5部分:手势界面标记语言(GIML) |
ISO/IEC 30113-11:2017 | 信息技术 跨设备和方法的基于手势的界面 第11部分:通用系统操作的单点手势 |
ISO/IEC 30113-12:2019 | 信息技术 用户界面 跨设备和方法的基于手势的界面。第12部分:通用系统操作的多点手势 |
ISO/IEC 30113-60:2020 | 信息技术 跨设备和方法的基于手势的界面 第60部分:屏幕阅读器手势的通用指南 |
ISO/IEC 30113-61:2020 | 信息技术 跨设备和方法的基于手势的界面 第61部分:屏幕阅读器的单点手势 |
语音识别方面,全国信标委用户界面分委会(TC28/SC35)制定了智能语音交互GB/T 36464和GB/T 41813系列标准,规定了智能语音交互系统通用功能架构、移动智能语音交互系统的术语定义和系统框架以及要求和测试方法。
《国家新一代人工智能标准体系建设指南》和《国家人工智能产业综合标准化体系建设指南(2024版)》都提出要建设自然语言处理、智能语音、计算机视觉、生物特征识别、人机交互/人机混合增强现实等关键技术标准,推动人工智能技术创新和应用。
3
生成式AI技术
2024年2月,OpenAI发布了文生视频人工智能模型Sora,引起了广泛关注。OpenAI将ChatGPT所用的Transformer算法,与扩散模型相融合,形成了新的底层算法模型DiT,使Sora实现了对语言的深刻理解,在视频生成上表现出了很强的“涌现”能力。
创建丰富和高体验度的虚拟和虚实结合内容与场景,需要投入高昂的人力、物力和时间成本,极大限制了创新速度和规模,是元宇宙发展的关键瓶颈。生成式AI技术将为XR的3D模型、场景、动作和脚本的创建提供前所未有的自由度,让开发者能够专注于用户体验创新,实现高质量XR内容、场景和虚拟世界的快速构建。
此外,XR中的虚拟场景、人物,需要与用户进行有效的实时交互,提供高度定制化的体验感。传统方法只能实现预设式的基本交互功能,而生成式AI技术基于大语言模型架构,可以为XR场景与用户之间的虚实交互提供更加自然的交互方式、更流畅的场景和角色切换,让用户感受到与现实世界相匹配甚至超现实的沉浸式体验。
在国内,标准化工作也在积极推进以支持这一技术的发展。全国信标委人工智能分委会(TC28/SC42)发布GB/T 42382.1-2023《信息技术 神经网络表示与模型压缩 第1部分:卷积神经网络》,规定了卷积神经网络(Convolutional Neural Network, CNN)离线模型的表示与压缩过程,以保证人工智能技术的跨平台可操作性,并提升模型复用效果,从而带动人工智能产业的健康、快速发展。该标准是国内首个面向人工智能生成模型的国家标准。此外,《信息技术 神经网络表示与模型压缩 第2部分:大规模预训练模型》(计划号:20230717-T-469)和《信息技术 神经网络表示与模型压缩 第3部分:图神经网络》(计划号:20230718-T-469)正在起草过程中。
全国网络安全标准化技术委员会(TC260)正在起草生成式AI数据和服务安全方面国家标准,如《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(计划号:20242095-T-469)、《网络安全技术 生成式人工智能数据标注安全规范》(计划号:20242097-T-469)、《网络安全技术 生成式人工智能服务安全基本要求》(计划号:20241752-T-469)。
国际上ISO/IEC JTC1/SC42负责人工智能标准化工作,重点围绕数据质量与治理、可信与安全展开研制工作。此外,在第27届联合国科技大会期间,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。其中,《大语言模型安全测试方法》由蚂蚁集团作为牵头单位。
编解码技术
1
概述
在虚拟现实产业中,音视频编解码技术主要应用于沉浸式媒体内容源的获取编码、封装、传输、解码及呈现交互。如下图所示。
图 2 音视频编解码技术框架
其中,视觉方面主要包含4K/8K超高清视频、全景视频、自由视点视频、点云、3D网格(3D Mesh) 等视频流;听觉方面包含沉浸式音频流。
2
XR中的编解码技术
视频编码
1)超高清视频编码
超高清视频通常指4K/8K分辨率的视频内容,支持高帧率(HFR,如100fps、120fps)、高动态范围(HDR)、广色域(WCG)。超高清视频对应的超高数据量和超大带宽,对压缩效率和时延也提出了更高的需求。基于此,国内外标准工作组织,如ISO/IEC JTC 1/SC 29(音频、图像、多媒体及超媒体编码)下设WG5“MPEG联合视频编码”工作组,和国内数字音视频编解码技术标准工作组(简称AVS工作组)分别制定了面向超高清视频的新一代视频编解码标准,开放媒体联盟AOM阵营也提出了面向互联网流媒体的开发编码标准AV1。
MPEG最新一代的编码标准VVC(即ITU-T H.266 | ISO/IEC 23090-3)在码率节省50%的情况下,保持与上一代HEVC(即ITU-T H.265 | ISO/IEC 23008-2)标准相似的主观质量。除压缩效率进一步提升之外,VVC的通用性也可以支持如超高分辨率(4K/8K)、高动态范围(HDR)、屏幕内容编码、360度沉浸式视频编码等多种新兴的视频内容与应用。AVS工作组也发布了面向8K超高清视频(UHD)电视广播和VR等新兴应用场景的国内自主视频标准AVS3。最新一代AVS3标准提出了更灵活的扩展四叉树划分方式、更复杂的帧内预测模式,并在帧间预测环节围绕预测结构,预测单元粒度和预测模式等方面进行了优化提升。
另一方面,为了支持更多样化的超高清视频应用场景,比如智慧城市、智能制造、智慧交通、智能视频监控等业务场景,当前业界也开始探索针对机器视觉的新兴编码标准,比如ISO/IEC JTC 1/SC 29下设WG4“MPEG视频编码工作组”正在研制的由中国专家主导的VCM(Video Coding for machine)和FCM(Feature coding for machine)标准项目,以及国内面向机器智能的数据编码标准(DCM)工作组正在研制的DCM(Data coding for machine)标准,通过压缩视频或者是前序任务产生的特征图产生码流,以供机器分析直接使用,支持多种机器视觉任务。
2)全景视频编码
全景视频是当前常见的沉浸媒体格式之一。由于全景视频具有高分辨率、高帧率、数据量大的特点,实现全景视频的低延迟传输需要较高的传输带宽,极大地阻碍了VR相关业务的发展。因此,高效的全景视频编码技术至关重要。ISO/IEC JTC 1/SC 29下设WG3 “MPEG系统”工作组从2015年起开始制定相关标准,提出了全向媒体格式(OMAF),以表示360度媒体内容,包括3DOF全景视频、图像、音频、文本等。
目前,全景视频编码可大致分为两类:传统编码方法和基于FOV的编码方法,前者通常将球面内容投影到二维平面上,再采用视频编码的方法进行编码。后者是指将输入的视频帧划分为相同大小的矩形,每个矩形编码为一个片(Tile)以便并行处理,同时可以Tile为单位拆分码流进行切片分发。
未来,高效的球面-平面的投影、高效的片划分、提高并行处理速度、实现用户姿态变化快速响应及视角自适应动态切换等将是未来全景视频编码技术的重要发展方向。
3)自由视点视频编码
自由视点视频实现了3DoF/6DOF观看体验,相较于其他沉浸媒体,其具有低成本制作、应用场景多等优势。面向自由视点视频,ISO/IEC JTC 1/SC 29/WG4工作组制定了沉浸式视频 (MIV) 标准,提供沉浸式、6DOF立体视觉场景的高效编码,可用于虚拟现实 (VR)、增强现实 (AR) 和混合现实 (MR)。MPEG计划基于视觉体积视频编码V3C的框架进行技术集成和扩展。国内AVS虚拟现实标准工作组 VRU于2019年启动了自由视点视频标准制定工作,开展国家标准《信息技术 虚拟现实内容表达 第2部分:视频》标准制定工作,该标准基于超高清视频编码技术进行自由视点视频压缩,在编码端将多视点图和多深度图直接进行拼接,加上辅助的元数据进行2D视频编码,在终端将基于深度图的处理合成虚拟视点的合成。
MPEG MIV 编码器的输入是多组视频,由一组无序的具有任意位姿(源视角)的真实或虚拟摄像机捕获。来自每个源视角的视频集包含了投影几何信息(深度以及可选的占用图)和属性信息(例如纹理、表面法线、材质贴图、反射率、透明度等)。此外,还提供了每个源视角的元数据,例如相机内外参、投影格式、投影平面尺寸和源视频的位深度(几何和属性)。MIV 编码器将基于几何和属性信息生成属性图集和几何图集,以及基于每个源视角的元数据生成描述图集的元数据。通过生成图集将减少视图间冗余,从而降低编码比特率,同时保持呈现给观众的内容质量,以实现实时的沉浸式视频服务。生成的属性和几何图集使用 2D 视频编码器编码为视频比特流,而元数据使用 MIV 标准编码。
更高效的补丁块生成、深度图生成方法、兼容更多的视频编码器、基于率失真优化的联合比特分配、面向全景内容的非同构视图选择、支持更宽的深度动态范围并实现占用误差校正、降低视点切换的延迟等将是未来自由视点视频编码的技术的发展方向。
4)点云编码
3D点云由一系列点的3D坐标和其对应的属性信息(颜色、反射强度、法向量等)组成。ISO/IEC JTC 1/SC29/WG7“MPEG三维图形和触觉编码”工作组基于点云编码的需求,相继发布了基于视频的点云编码(V-PCC)和基于几何的点云编码(G-PCC)。AVS工作组成立了点云工作组,发布了点云编码参考软件(PCRM),其是在 3D 空间对点云进行编码处理。DCM工作组也就面向机器智能的点云编码提出了技术需求,计划开展点云编码相关标准工作。Google也发布了开源库Draco,用于压缩和解压缩 3D 几何网格和点云。
目前,点云编码主要分为两种技术路线:基于视频的点云编码方法和基于几何的点云编码方法。基于视频的点云编码基于视觉体积视频编码V3C的框架,其方法主要涉及块(Patch)划分重组、几何和纹理图像的生成、填充及编码、辅助划分信息以及占位图的编码等新技术。基于几何的点云编码方法主要涉及八叉树表征、属性预处理、属性变换、变换/预测、属性量化、属性熵编码等新技术。
未来,点云编码技术发展将围绕下列方面展开:更高效的几何表征方法及属性预测技术、更灵活的编码速度配置,支持多种延迟场景,比如离线转码、云游戏、视频直播、视频会议等,兼容各终端设备,实现场景自适应,提高编码速度(帧间并行加速、预分析和后处理加速),智能码率控制等。
5)动态3D网格编码
3D网格已成为视觉沉浸媒体主要的数据格式之一。一个3D网格由以下部分组成:拓扑信息、几何信息、映射信息、顶点属性、属性映射。上述五部分中,若任一部分包含时变,即为动态网格。相较于静态网格,一个动态网格序列的数据量更为庞大,因为它包含大量随时间变化的信息。ISO/IEC JTC 1/SC 29/WG7正在计划开发一种新的3D网格压缩标准,用以压缩具有时变拓扑信息和可选时变属性映射的动态网格。该标准面向各类应用场景,如实时沉浸式通信、自由视点视频、AR和VR等。SC 29/WG7计划基于视觉体积视频编码(V3C)的框架进行技术集成和扩展。目前,国内标准工作组暂未开设相关专题组。
未来,3D网格编码技术的发展特点大致如下:支持静态和动态网格编码、支持有损和 无损压缩、支持随机访问、低延迟、具有容错能力、支持并行编码和解。
音频编码
当前,音频编码技术正在向深度学习等人工智能技术相结合的方向发展,通过深度学习算法提高音频编码的压缩码率,降低音频编码的复杂度。同时,为了满足虚拟现实等应用需求,提供沉浸式和虚实融合的应用体验,实现3DoF甚至6DoF的声音感受,灵活适用各类场景,从个性化音频制作到基于场景的个性化渲染回放,高质量、低延迟、自适应可变速率、定位准确的三维声编码技术成为当前音频编码技术的焦点,国内外均针对三维声编解码技术和标准开展了相布局和研究工作。
国际上,ISO/IEC JTC 1/SC 29下设WG6 “MPEG音频组”制定了MPEG-H 3D Audio(ISO/IEC 23008-3)标准,目前正在开展MPEG-I音频编码标准制定工作。其中,MPEG-H 3D Audio可以提供沉浸式和个性化音频服务,而MPEG-I是为虚拟和增强现实应用程序开发的全新标准,以提供更自然、逼真的VR体验。相比 MPEG-H,MPEG-I能够提供更优秀的互动性和沉浸感,并将支持6DOF,用户可以在虚拟空间内移动,并与虚拟空间物品进行交互。3GPP 沉浸式语音及音频服务(IVAS)已于2017年立项,从版本15开始已经演进到版本18,其中包括VR流媒体服务、沉浸式语音及音频编码、提升VR用户体验、边缘计算、场景探索、触觉和媒体服务,SA4沉浸式多媒体类型和内容格式,XR相关业务,QoS、QoE指标等。国内,AVS工作组从2016年起,开始对三维声和互动式音频开展研讨和技术征集,2018年发布GB/T 33475.2《信息技术 高效多媒体编码 第3部分:音频》,支持三维声音频编码;2021年立项国家标准计划《信息技术 虚拟现实内容表达 第3部分:音频》,规定了虚拟现实设备及相关系统中的沉浸式音频内容的表达方式,提出了包括元数据和渲染器的系统构架及接口规范,适用于全景音频录播、沉浸式音频通信、虚拟现实音频交互等领域的音频采集、传输、回放系统;2022年,世界超高清产业联盟(UWA)联合AVS工作组,共同制定面向三维声音频编码的自主编码标准,联合发布T/UWA 009.1—2022年《三维声音技术规范 第1部分:编码分发与呈现》和T/AI 109.3—2023《信息技术 智能媒体编码 第 3 部分:沉浸式音频》,即三维菁彩声Audio Vivid/AVS3P3音频标准。三维菁彩声(Audio Vivid)针对不同的信号类型采用不同的技术工具对输入信号进行编解码。采用多声道编码技术去除多声道信号间的信息冗余。采用HOA空间编码技术去除HOA各声道信号间的空间几何信息冗余。采用基于心理声学模型的预处理和基于AI的量化,熵编码技术去除单声道、对象音频信号中的信息冗余。通过扬声器或耳机完成最终渲染输出。
接口协议
1
概述
随着虚拟现实产业的蓬勃发展与广泛应用,设备与设备之间、软件与设备之间的数据交互越来越被建设者和使用者所重视,从而构建一套标准的数据传输协议规范在虚拟现实设备、软件和平台之间得到了广泛关注。通过这些接口协议,不同厂商、不同技术的虚拟现实设备和软件之间可以互相通信,并为开发者构建跨平台的虚拟现实应用内容提供数据传输基础支撑。
国外已经在虚拟现实接口协议的标准化方面积累了一定经验,其中OpenXR作为一个开放标准受到了全球范围内的广泛关注和采用,为不同厂商的虚拟现实设备提供了互操作性。而其他一些厂商构建了平台和SDK工具,在市场中也具有较大的影响力,例如SteamVR、Oculus SDK和Viveport SDK。这些接口协议SDK工具通常提供了丰富的功能和接口,支持设备跟踪、数据传输、手柄交互和空间定位等,为开发者提供了强大的工具来创建沉浸式的虚拟现实内容的同时记录了操作的整个过程数据。
然而,虚拟现实设备之间的互操作性、数据传输兼容性仍然存在一些问题和瓶颈,包括不同厂商设备之间的接口差异、设备性能的差异以及软件兼容性差异等。这些问题使得开发者在跨设备开发和用户体验方面面临挑战,限制了虚拟现实技术的进一步应用。因此,业界对于统一虚拟现实设备接口标准有着迫切的需求,以解决设备间的通信问题,并推动虚拟现实技术的更广泛应用,积极促进虚拟现实产业发展。
2
XR中的接口协议
在XR应用中接口协议技术主要用于实现设备、应用程序和系统之间的通信和交互。XR应用中常见的接口协议技术包括OpenXR、WebXR等。
OpenXR是由Khronos Group开发的开放式、跨平台的XR接口标准。它旨在提供一个统一的接口,使开发者能够在不同的XR设备上编写一次代码,实现跨平台的兼容性和可移植性。
WebXR是基于Web技术的XR接口标准,允许在Web浏览器中访问和使用虚拟现实内容。WebXR通过JavaScript API提供了对XR设备的访问和控制,使开发者能够在浏览器中创建交互式的虚拟现实和增强现实应用。
SteamVR是由Valve开发的虚拟现实平台,OpenVR是其开放的接口标准。SteamVR/OpenVR提供了与虚拟现实设备的交互和控制的接口,使开发者能够创建适用于SteamVR平台的虚拟现实应用。
Oculus SDK是由Oculus VR开发的软件开发工具包,用于开发适用于Oculus虚拟现实设备的应用程序。它提供了与Oculus设备的交互和控制的接口,包括头部追踪、手部追踪、眼部追踪等功能。
ARKit是由Apple开发的增强现实开发工具包,ARCore是由Google开发的增强现实平台。它们提供了与增强现实设备的交互和控制的接口,使开发者能够创建适用于iOS和Android平台的增强现实应用。
这些接口协议技术为开发者提供了与XR设备的交互和控制的标准化接口,简化了开发过程,并增加了应用程序的兼容性和可移植性。通过这些接口协议技术,开发者能够更加方便地创建丰富、交互性强的XR应用,提供更好的用户体验。
3D数据格式
1
概述
三维数据格式是指用于存储和处理三维数字内容的格式和技术,包括模型数据格式、材质数据格式、动画数据格式等。模型数据格式用于描述和存储三维模型的几何形状、拓扑结构和纹理信息,如OBJ、FBX、STL等。材质数据格式用于描述和存储三维模型的材质属性和纹理贴图,如JPEG、PNG、TGA等。动画数据格式用于描述和存储三维模型的动画效果和运动轨迹,如BVH、FBX、GIF等。这些三维数据格式和技术为三维数字内容的创建、编辑、存储和交流提供了基础和标准化的支持,使得不同软件和平台之间能够无缝地共享和使用三维数据,促进了三维内容的创作、生产和应用的发展。
2
XR中的3D数据格式
在XR中,常见的3D数据格式有以下几种:
OBJ(Wavefront OBJ):OBJ是一种广泛使用的开放标准的3D模型文件格式。它可以包含几何形状、纹理映射、材质信息等。
FBX(Filmbox):FBX是一种由Autodesk开发的专有3D文件格式,广泛用于游戏开发和虚拟现实应用。它支持几何形状、材质、动画、骨骼等多种数据。
STL(Stereolithography):STL是一种用于3D打印的文件格式,它描述了物体的几何形状,通常由三角面片构成。
glTF(GL Transmission Format):glTF是一种开放标准的3D文件格式,设计用于在Web和移动平台上实时渲染。它支持几何形状、材质、动画等数据,并且文件大小相对较小。
USD(Universal Scene Description):USD是一种由Pixar开发的通用场景描述格式,用于在动画制作和特效领域共享和交换3D数据。它支持复杂的层次结构、多个变体和参考。
这些格式在XR应用中具有不同的特点和用途,开发者可以根据具体需求选择适合的格式来处理和展示3D数据。
空间计算
空间计算最早应用于卫星定位系统和地理信息系统等宏观领域,是指对地图及其他地理位置数据进行计算和分析以实现定位与测量的技术。随着XR、虚拟数字人等技术发展,微观空间的计算需求也在逐渐增加。苹果发布的最新一代XR产品Vision Pro,其典型特点之一就是更加深度地采用了空间计算技术及号称“空间计算操作系统”的Vision OS。
空间计算被认为是构建元宇宙等虚拟世界的基础技术之一。空间计算的核心技术包括三维重建、空间感知、用户感知和空间数据管理等,实现用户在没有传统输入设备(如键盘和鼠标)的情况下,通过语音、视觉、手势等更自然的交互方式与周围环境进行身临其境的交互。在XR交互应用中,空间计算不仅包括用户的身体感知,如头部、手势、眼球、表情和腿的定位,还包括对环境的感知,即通过精确计算让用户知道周边物体的形状、大小、位置等。基于这些精准计算,虚拟物体可以被放置在现实世界中,并与现实世界高度融合。
第三章 内容生产——内容采集
全景拍摄设备
全景拍摄流程
三维扫描
三维扫描仪
动作捕捉
动作捕捉概述
采集数据处理
全景视频处理
点云数据处理
纹理数据处理
三维声场麦克风
相关标准化情况
第三章 内容生产——内容采集
全景摄像是利用实景拍摄设备对环境的全景图像以720度(水平360度,上下360度)立体全方位视角进行拍摄采集的过程。后期再通过合成技术将这些图像拼接成一个完整的全景画面,并在计算机、移动终端、虚拟现实设备或互联网上呈现。当用户观看这些全景画面时,他们会有一种身临其境、置身其中的感觉,仿佛真的置身于实际拍摄现场。
1
全景拍摄设备
一体式全景相机
多机组合拍摄
2
全景拍摄流程
三维扫描
三维扫描仪
在虚拟现实领域,三维扫描仪用于侦测并分析现实世界中物体的形状(几何构造)与外观数据(如颜色、表面反照率等性质),得到物体表面的点云信息并转化为计算机可以直接处理的数据用于三维重建计算,在虚拟世界中创建实际物体的数字模型,从而创造逼真的虚拟现实物体、环境和人物。
三维扫描流程
动作捕捉
1
概述
动作捕捉外设
采集数据处理
采集的数据包括全景视频、三维点云数据、纹理数据等类型的原始素材。主流图片类型包括JPEG、PNG、BMP等,主流视频类型包含MP4、MOV、AVI、WebM、FLV、RMVB等,主流三维模型显示表示格式包括OBJ、FBX、3Dmax等,主流三维模型隐式表示包括基于神经网络的NeRF、SDF等。
此外,将采集到的三维数据进行处理和整合,以便进行后续的分析和应用。这一步骤主要包括数据文件的格式转换、区域划分、要素分类、时间排序、冗余数据处理,确保采集到的全景数据覆盖场景,通过对数据进行处理,可以提高数据的质量和完整性,为后续的三维模型生成提供可靠的数据基础。
1
全景视频处理
在从全景拍摄设备中采集得到空间中不同方位所对应的视频序列后,多个视频序列需要通过拼接与融合技术生成最终的全景视频。全景视频拼接的整体流程包括:
图像预处理指的是对上述全景拍摄设备采集到的视频序列进行一些常见的图像处理操作,如对图像进行亮度及色彩校正以避免由于拍摄时的一些因素导致的设备焦距不同、曝光参数不同、白平衡不同的问题,如对图像进行去噪处理以去除图像中的高频噪声。这一步中没有固定的操作,而是应该根据序列的特性选用合适的算法进行处理。
图像配准
由于拍摄视角、角度、分辨率、光照等参数的差异,因而待拼接的若干幅图像之间在位置平移、方向旋转、尺度变换、变形扭曲等方面存在一定区别。图像配准过程,就是采用一定的匹配策略,寻找待拼接图像中的特征点在参考图像中的位置,从而得出最能描述待拼接图像之间映射关系的变换模型。常用的变换模型有平移变换模型、刚性变换模型、仿射变换模型及投影变换模型等等。
图像变换
图像变换指的是将配准后的视频图像进行变换,在通过上述配准操作找到变换矩阵并计算出矩阵中各个参数的值,然后将待拼接的图像变换到参考图像的坐标系中,完成统一的坐标变换,以满足拼接的需要。图像变换可以包括旋转、缩放、平移等操作。
图像融合
由于拍摄参数的影响,不同视频序列间在亮度上存在一些差异,因此拼接后会产生拼接缝隙,另外配准的误差也会导致视频序列的重叠区域会存在“鬼影”等瑕疵。图像融合就是将若干图像中的场景综合成一个场景的过程,经过图像融合后,上述瑕疵可以得到一定程度的消除,从而得到重构的全景视频序列。
2
点云数据处理
点云数据处理是指对原始点云数据进行加工、清理、融合、重构等操作,以生成满足特定应用需求的三维模型或其他数据集的过程。点云数据处理的流程一般包括以下几个步骤:
点云预处理
对原始点云数据进行格式转换、选择、删除、降噪、抽析、平滑、采样、缺失点填充等操作,将不同格式的点云数据转化为统一格式,以提高数据的质量和可用性。
特征提取
从点云数据中提取各种特征,如表面法向量、曲率、特征点等。这些特征可以通过计算点云数据的局部几何信息来实现,为后续的点云数据处理提供重要的信息。
点云配准
将两个或多个点云数据集在相同坐标系下进行对齐,使得它们在空间中具有一致的位置和姿态。在实际应用中,往往需要将多个点云数据进行配准,以获得更加完整的三维模型。数据配准可以通过计算点云数据之间的变换矩阵实现,也可以采用ICP算法、特征匹配等方法。
数据重建
将点云数据转化为三维模型的过程。数据重建可以通过网格化、体素化等方法实现。网格化可以将点云数据转化为三角网格模型,体素化可以将点云数据转化为体素模型。数据重建可以为后续的三维建模、虚拟现实等应用提供基础。
3
纹理数据处理
纹理数据处理的目的是保证处理后的图像与实地情况相符,真实反映实际材质的图案、质感、颜色及透明度。纹理数据处理的流程一般包括以下几个步骤:
图像色调调整
图像出现曝光过度、曝光不足、阴影、相邻图像间的色差等现象时,应进行色调调整,色彩纠偏,保持图像反差适中、色调一致。
变形纠正
因视角或镜头畸变引起变形,应对图像的变形部分作纠正处理。
图像配准
图像配准时,应保证图像细节表现清晰,无配准镶嵌缝隙。
格式转换
将处理后的图像转换为通用的文件格式。
三维声麦克风可捕获 360° 环绕声,应用于虚拟现实、声音设计、沉浸式音频和实验性录音。典型产品是麦克风领域的开拓者 SoundField(首款商用三维声麦克风的发明者)和 RØDE合作推出的NT-SF1。
三维声场麦克风由四个紧密排列的心形或心形(单向)麦克风胶囊组成,排列成四面体。它可以充当单声道、立体声或环绕声麦克风,并且还可以选择包含高度信息。每个麦克风的模式可以是全向、心形、超心形、八字形或介于两者之间的任何类型。声场麦克风套件由麦克风和信号处理器组成,可产生称为A格式和B格式的两组不同的音频信号。声音处理器是专用硬件或运行软件的计算机。软件处理可以在录制期间或离线时实时执行。
A格式由声场麦克风本身产生,由来自麦克风胶囊的四个信号组成。A格式通常被转换为第二组音频信号,即B格式。根据麦克风型号,此转换可以通过硬件或软件完成。B格式由四个信号组成:(1)W:对应全向麦克风输出的压力信号;(2)X:对应从前到后的方向信号;(3)Y:对应从左到右的方向信号;(4)Z:对应从上到下的方向信息。在后期制作中,B格式录音也可以解码到放置在水平和垂直平面上的任意数量的扬声器。
相关标准化情况
邮箱:ceo@lianyun.wang