本项预期成果是解决复杂场景中目标三维数据重建、驱动的关键技术。
针对实际应用中复杂运动场景,例如刚性运动的交通工具,变形移动行人等,传统的运动结构恢复方法在进行场景深度求解时无法确定每个单元结构的相对尺度,导致无法对复杂运动场景进行重建。在现有的深度估计、语义分割、位姿估计等相关技术,存在识别精度低、提取不到关键信息、应用场景单一等问题,无法满足大尺度场景应用的需求。
本项目成果提出了一套面向目标、人体深度数据重建技术,有效实现对复杂运动场景下人、物的深度重建与驱动,有效解决现实场景目标的数字化模型生成与虚拟场景下的驱动映射问题。提出多模态采集、时空复用编码摄像方法,获取大景深、高时空分辨、丰富的精确场景视觉信息,基于超像素关系分析的深度重建方法,包括目标超像素分割,图像帧匹配,运动关系判定,通过时序传播与概率模型更新实现实时深度重建,提高最终三维重建模型的稠密度、鲁棒性、一致性和准确度。构建了基于深度卷积神经网络的目标实例检测与位姿估计框架,从目标对象观测图片提取其分割掩码并不断迭代更新,输入深度卷积神经网络进而得到目标6D位姿估计并进行迭代改进,从而实现目标在动态复杂场景下的位姿还原,克服了在光照、姿态变化、遮挡等不良因素环境下的目标位姿不准确问题,确保了目标6D位姿估计的鲁棒性与准确性。
与现有的同类技术相比,本成果在深度重建的精细度、鲁棒性、一致性和准确度上具有明显优势,在物体检测的准确性、实时性具有明显优势,在位姿估计中的旋转、平移的解耦表示方法与自监督框架,提高了位姿估计的准确性与实时性,并解决了对大量带位姿标注的真实数据的依赖。从而有效实现现实场景模型的数字化生成与虚拟场景下的模型驱动映射。
本项成果应用领域多元,主力聚焦于元宇宙、数字城市、自动驾驶、AR/VR、机器人、制造业等大量依赖三维数据生成、识别、检测、位姿估计与驱动应用的行业。
随着元宇宙、数字城市、自动驾驶、AR/VR、机器人、制造业等概念的兴起,行业生态即将进入爆发期。团队拟通过技术许可方式,与多个领域有需求的企业开展合作,形成一系列独创的关键技术,产生显著的经济和社会效益。
寻求在元宇宙、数字城市、自动驾驶、AR/VR、机器人、制造业等领域有相关技术开发、市场推广经验,能推广本技术落地的高科技企业,可以进行深度合作。
季向阳,清华大学自动化系教授,博导,国家杰出青年科学基金获得者,国家“万人计划”领军人才。主要从事视觉信息获取与处理、计算机视觉、机器学习等方面的研究,先后承担科技部“新一代人工智能”重大专项、国家自然科学基金仪器项目等,近年来发表高水平学术论文100余篇,获授权发明专利60余项,曾获2019年国家科技进步二等奖(第一完成人),2010年国家科技进步二等奖(第二完成人)。
E-mail:ott@tsinghua.edu.cn