筋骨草

注册

 

发新话题 回复该主题

智能感知空间语境,实现2D照片秒变3D立 [复制链接]

1#
济南白癜风医院 http://m.39.net/pf/a_6997150.html

快手Y-tech

最新技术干货分享

单调的2D图像编辑是否让你感到厌倦?是否想让静止的单张照片动起来,生成动态的3D效果?快手Y-tech团队提出一种将单张RGB图像实时转换为3D照片的方法,利用基于深度学习的深度估计与图像修复技术感知空间语境,配合自研的KwaiNN推理引擎和SKwai三维特效引擎,实现手机端实时渲染生成3D立体照片。

3D立体照片概述

年底,Adobe[6]提出了3DKenBurns的3D立体照片(3DPhoto)生成算法,突破了AEVoluMax[3]、PS等软件通过人工编辑才能生成3DPhoto的传统方案,实现了图像的3D智能编辑。随后,Facebook[5]、Snapchat[4]等也相继上线3DPhoto应用,开启了3D图像编辑的风潮。

3DPhoto属于视图合成技术,需要预测出精确的场景深度进行三维重建,然后设置一系列虚拟的相机位置,根据相机位之间的重投影关系合成新视图。对于位姿变化较大的视角,需要找出遮挡区域并进行图像修复,从而保证新视图的场景几何结构准确。因此,深度预测和遮挡区域修复是3DPhoto的两大技术挑战,此外,为了实现整体功能的移动端运行,各个模块都要求计算量小,且覆盖全部机型。Facebook[5]、Snapchat[4]等方案仅支持带深度传感器的手机拍摄使用,如iPhone,且遮挡区域修复效果有明显的模糊和人工痕迹。

?图1.快手3DPhoto美钞效果

得益于快手Y-tech团队AR组在深度估计和图像修复领域的深度耕耘与积累,利用基于深度学习(Learning-based)的移动端通用场景实时深度估计与图像修复技术感知空间语境,为场景生成深度信息并为遮挡区域合成合理的背景和深度信息,解决了以上两大挑战。玩法支持自适应前背景图像分层来合成新视图,配合自研的KwaiNN推理引擎和3D图形引擎,在业界首次实现手机端实时渲染生成3DPhoto,基本可以覆盖所有机型,而不需要昂贵的深度传感器。此外,我们的效果也支持在3D空间中添加粒子、光晕、雨雪、大气等特效,进一步增强照片的立体感,使得最终特效更加酷炫。

近期,基于快手3DPhoto技术实现的希区柯克效果在印尼、巴基斯坦、孟加拉进行了推广,上线了多款MV模版,推广期间带动了MV大盘生产消费数据提升,同时也带动了大盘投稿率提升,在站外有一定的曝光量级并且吸引了站外新用户。整体在海外业务推广中取得了不俗的成绩。

?图2.SnackVideo希区柯克效果?

算法框架概述

正如前文描述,基于单张图的视图合成技术是一个非常难的问题,尤其是在手机端实现3DPhoto效果,它主要有以下难点:

通用场景深度估计:获得室内外场景下,兼顾人脸精细度、场景整体远近的高质量深度图。通用的图像修复:获得任意大小缺失区域的高质量修复。重建与渲染:完成场景重建、设计合理的相机运动轨迹与新视图的渲染。整体功能移动端实时运行:包括各个模块及整体系统高效运行。

我们的3DPhoto算法框架如图3所示,针对如上难点,我们进行了算法及工程上的创新,其中核心步骤如下:

●首先针对输入图片,我们通过自研的人像分割、单目深度估计模型预测人像区域和整体深度图,同时采用人脸检测和实时3D人脸重建算法获取人脸的精细深度。接着将人脸深度与整体场景深度进行尺度一致性融合,使得最终深度兼顾人脸精细度及场景相对远近。

●然后根据人像区域,利用自研的图像修复模型预测出遮挡区域背景,并利用泊松扩散恢复出遮挡区域深度,这样便得到了准确的前后景图像和深度。

●最后对前后景进行3D网格重建,预设并生成连续的虚拟相机运动轨迹,在每个姿态下渲染出场景的新视图,

图3.算法整体框架

这样通过我们的方案能够获得和谐完备的3D立体效果。由于我们的算法涉及的模块较多,为了保证整体功能能在移动端运行,需要尽可能压缩每一个模块的时间,配合自研的KwaiNN推理引擎,可以满足手机端实时运行,使用户可以在手机上将2D图像转换成震撼的3D效果。接下来,我们将针对核心步骤进行详细介绍。

算法细节

单目深度估计

针对2D图片实现3DPhoto需要获取深度这一关键的基础信息,我们基于编码-解码结构的U形网络进行设计,为多级特征图添加了从编码器到解码器的skip连接层。编码器主要提取语义特征,解码器则更加

分享 转发
TOP
发新话题 回复该主题