w88体育_w88优德手机版|优德88

优德88 ios_ww优德88 com优德官网_优德88游戏下载

admin2个月前197浏览量

谷歌的新研讨提出了一种新的根据深度学习的办法来处理单个摄像头+摄像头和物体都在移动的状况下的深度猜测。

文 | 杨晓凡

AI 科技谈论按:人类视觉体系有一个咱们习认为然但其实极端强壮的功用,那便是能够从平面图画反推出对应的三维国际的姿态。即使在有多个物体一起移动的杂乱环境中,人类也能够对这些物体的几许形状、深度联系做出合理的估测。

可是相似的工作对核算机视觉来说就有相当大的应战,在摄像头和被拍照物品都停止的状况下尚不能稳定地处理一切的状况,摄像头和物体都在空间中自在运动的状况就更难以得到正确的成果了。

原因是,传统的三维重建算法依靠三角核算,需求假定同一个物体能够从至少两个不同的视点一起调查,经过拍照的图画之间的差异(视差)解算三维模型。想要满意这样的条件,要么需求一个多摄像头阵列,要么要坚持被拍照物体彻底停止不动,答应单个摄像头在空间中移动调查。那么,在只要单个摄像头的状况下,深度核算中要么会疏忽掉移动物体,要么无法核算出正确的成果。

在谷歌的新研讨《Learning the Depths of Moving People by Watching Frozen People》中,他们提出了一种新的根据深度学习的办法来处理单个摄像头+摄像头和物体都在移动的状况下的深度猜测,在恣意视频上都有很好的作用。这个办法顶用人类姿态、常见物体形状的先验学习代替了关于图画的直接三角核算。AI 科技谈论介绍如下。

值得指出的是,用机器学习的办法「学习」三维重建/深度猜测并不是什么新鲜事,不过谷歌的这项研讨专门针对的是摄像头和被摄物体都在移动的场景,并且要点重视的被摄物体是人物,究竟人物的深度估量能够在 AR、三维视频特效中都派上用场。

奇妙地寻觅练习数据

正如绝大多数此类办法相同,谷歌挑选了用有监督办法练习这个模型。那么他们就需求找到移动的摄像头拍照的纹理场景视频,一起还带有精确的深度图。找到很多这样的视频并不简略。假如挑选生成视频的办法,这需求十分传神的建模,并且在多种场景、光照、杂乱度的组合下出现纹理的人物动作,不只有很高的难度,并且想要泛化到实在场景中依然有必定难度。另一办法是在实在国际中拍照这样的视频,需求摄像头支撑 RGBD (五颜六色图画+深度图),微软的 Kinect 便是一种常用的贱价计划;但这个计划的问题是,这类摄像头一般只适用于室内环境,并且在三维重建过程中也一般有各自的问题,难以得到抱负的精度。

机敏的研讨人员们想到了使用 YouTube 上面的视频。YouTube 上的海量视频中,各种体裁、场景、拍照办法的都有,有一类视频对这个使命极端有协助:视频中的人伪装时刻停止,坚持方位和姿态不动,然后一个摄像机在空间中移动,拍下整个场景。因为整个场景中的物体都是固定的,就能够用传统的根据三角核算的办法精确地复原整个三维场景,也就得到了高精度的深度图。谷歌的研讨人员们搜集了大约 2000 个这样的视频,包含了不同数量的人们在各式各样不同的实在场景中摆出各种姿态。

为正在移动的人预算间隔

上面提到的「时刻停止」视频供给了移动的摄像头+停止的物体的练习数据,可是研讨的最终目标是处理摄像头和物体一起运动的状况。为了应对这个差异,谷歌的研讨人员们需求把网络的输入结构化。

一种简略的处理计划是为视频中的每一帧别离推理深度图(也便是说模型的输入是单帧画面)。尽管用「时刻停止」视频练习出的模型现已能够在单帧图画的深度猜测中获得顶尖的体现,但谷歌的研讨人员们认为,他们还能够使用多个帧的信息进一步提高模型的体现。比方,关于相同的固定物体,摄像头的移动形成了不同视角的两帧画面,就可认为深度估量供给十分有用的头绪(视差)。为了使用这种信息,研讨人员们核算了每个输入帧和另一帧之间的二维光流(两帧之间的像素位移)。光流一起取决于场景的深度和摄像头的相对方位,不过因为摄像头的方位是不知道的,就能够从光流场中消去两者间的依靠,然后得到了初始深度图。这样得到的深度图只对场景中静态的部分有用,为了还能处理移动的人,研讨人员们添加了一个人物切割网络,把人从初始深度图中遮盖掉。那么,网络的输入就由这三部分组成:RGB 五颜六色图画,人物掩蔽,以及经过视差核算的带有掩蔽的深度图。

关于这样的输入,网络的使命便是补上有人的区域的深度图,以及对整幅画面的深度图做一些完善。因为人体有较为固定的形状和尺度,网络能够很简略地从练习数据中学到这些先验,并给出较为精确的深度估量。在练习结束后,模型就能够处理摄像头和人物动作都恣意改变的纹理拍照视频了。

与当时的其它优异办法的比照方下图。

经过深度图完成三维视频作用

得到精确的深度图之后,一种简略、常见的使用办法便是完成景深和虚焦作用,如下图。

其它的用法还比方能够用原图结合深度图进行小幅视角改换,组成「三维画面」,如下图;甚至在画面中添加具有精确深度和尺度的三维元素也不难。

论文地址:https://arxiv.org/abs/1904.11111

via ai.googleblog.com,AI 科技谈论编译

今天定量赠送3张1000元门票优惠码,门票原价1999元,现价仅999元,定量3张,送完即止。(翻开以下恣意一条链接即可兑换,先到先得)

https://gair.leiphone.com/gair/coupon/s/5cf4e5cf8e919

https://gair.leiphone.com/gair/coupon/s/5cf4e5cf8e64f

https://gair.leiphone.com/gair/coupon/s/5cf4e5cf8e3f8

点击阅览原文,检查 一文尽览 ICLR 2019 Facebook & Google 当选论文

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。

最新评论