提交 659e3201 编写于 作者: M MaoXianxin

7 Papers & Radios | 史上最强三维人脑地图;3D渲染图转真实图像

上级 e0570e3e
# 神经网络如何进行深度估计?
# 7 Papers & Radios | 史上最强三维人脑地图;3D渲染图转真实图像
与深度神经网络相比,人类的视觉拥有更强的泛化能力,所以能够胜任各项视觉任务。结合人类视觉系统“通过观察结构信息获得感知能力”的特点,微软亚洲研究院的研究员们提出了一种新的深度估计方法,能够赋予神经网络强大的深度估计的泛化能力。目前,相关工作的论文已被 CVPR 2021 收录
> 本周的重要论文包括谷歌联合哈佛大学 Lichtman 实验室推出的「H01」数据集;中国科学技术大学郭光灿院士团队李传锋、周宗权研究组利用固态量子存储器和外置纠缠光源,首次实现两个吸收型量子存储器之间的可预报量子纠缠,演示了多模式量子中继等研究
在深度学习的驱动下,如今计算机已经在多个图像分类任务中取得了超越人类的优异表现。但面对一些不寻常的图像,以“深度”著称的神经网络还是无法准确识别。与此相比,人类的视觉系统是通过双眼的立体视觉来感知深度的。通过大量实际场景的经验积累以后,人类可以在只有一张图像的情况下,判断图像中物体的前后距离关系。
**目录:**
在计算机视觉领域,单目深度估计试图模拟人类的视觉,旨在在只有一张图像作为输入的情况下,预测出每个像素点的深度值。单目深度估计是 3D 视觉中一个重要的基础任务,在机器人、自动驾驶等多个领域都具有广泛的应用,是近年来的研究热点。
1. 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding
2. ACTION-Net: Multipath Excitation for Action Recognition
3. A Connectomic Study of a Petascale Fragment of Human Cerebral Cortex
4. Balance Control of a Novel Wheel-legged Robot: Design and Experiments
5. Heralded Entanglement Distribution between Two Absorptive Quantum Memories
6. Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future
7. Enhancing Photorealism Enhancement
目前通用的解决方案是依赖深度学习强大的拟合能力,在大量数据集上进行训练,试图获取深度估计的能力。这一“暴力”解法尽管在某些特定数据集的测试场景上取得了优异的结果,但是网络的泛化能力较差,很难迁移到更一般的应用情形,无法适应不同的光照条件、季节天气,甚至相机参数的变化。其中一个具体的例子就是,相同的场景在不同光照条件下的输入图像,经过同一个深度估计网络,会出现截然不同的预测结果。
**论文 1:3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding**
造成这一结果的原因在于,从人类感知心理学的相关研究中可以发现人的视觉系统更倾向于利用形状结构特征进行判断,而卷积神经网络则更依赖纹理特征进行判断。
- 作者:Shengheng Deng、Xun Xu、Chaozheng Wu 等
- 论文地址:[https://arxiv.org/pdf/2103.16397.pdf](https://arxiv.org/pdf/2103.16397.pdf)
例如,给定一只猫的图像,保留猫的轮廓,再使用大象的纹理去取代猫的皮毛纹理,人类倾向于认为图像的类别是猫,但是网络却会判定为大象。这种不一致性,会导致网络强行学习到的规律和人类不一致,很难完成对人类视觉系统的模拟。具体到深度估计领域,图像的纹理变化,例如不同的光照、天气、季节造成的影响都会对模型产生较大的影响
**摘要:**为了促进视觉功能可供性在真实场景中的研究,在这篇 CVPR 2021 论文中,来自华南理工大学等机构的研究者提出了基于 3D 点云数据的功能可供性数据集 3D AffordanceNet。基于此数据集,研究者提供了三个基准任务,用于评估视觉功能可供性理解。他们在所提出的 3D AffordanceNet 数据集基础上,提出了 3 个视觉功能可供性理解任务,并对利用半监督学习方法进行视觉功能可供性理解以利用未标注的数据样本的方式进行了探索,三个基线方法被用于在所有任务上进行评估,评估结果表明研究者提出的数据集和任务对视觉功能可供性理解在具有价值的同时,也具有挑战性
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105005.png)
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210606230043.png)
<div align="center">
图1:(a)大象纹理图像;(b)猫图像;(c)用大象纹理取代猫皮毛纹理的图像。
</div>
*3D AffordanceNet 数据集样例。*
另一个更为严重的问题,是网络容易根据局部的颜色信息来进行判断,而不是根据图像整体的布局。比如,深度网络会把前方路面上的白色卡车误认为是白云,将较近距离的卡车判断为较远距离的云,这种误判在自动驾驶场景中非常致命,会导致车辆无法对白色卡车进行合理规避,酿成严重事故
**推荐:**本文已被 CVPR 2021 会议接收
## 将人类视觉用于深度估计
**论文 2:ACTION-Net: Multipath Excitation for Action Recognition**
如何解决上述两个“致命”问题,从而提高深度神经网络的泛化能力?
- 作者:Zhengwei Wang、Qi She、Aljosa Smolic
- 论文地址:[https://arxiv.org/pdf/2103.07372.pdf](https://arxiv.org/pdf/2103.07372.pdf)
尽管“误判”问题可以通过扩大训练数据集来缓解,但是收集数据本身会带来大量的人力、物力成本。而使用计算机图形图像学技术虽然可以以较低的成本生成大量的训练数据,但是由于合成数据和真实数据存在色彩色调不一致的情况,所以合成数据集上训练的深度估计网络也很难泛化到实际应用场景中
**摘要:**本文由字节跳动研究员佘琪和都柏林圣三一大学王正蔚合作完成,关注高效视频特征学习。视频应用场景近几年变得越来越多元化比如视频分类、视频精彩时刻挖掘和人机交互。在此工作中,主要侧重于时序动作识别比如人机交互与 VR /AR 中的手势识别。和传统的动作识别相比如 Kinetics(注重视频分类),此类应用场景主要有两种区别:其一是 一般部署在边缘设备上如手机和 VR / AR 设备上,所以对模型计算量和推理速度有一定的要求;其二此类动作(「Rotate fists counterclockwise」vs「Rotate fists clockwise」)和传统动作识别动作(「Walking」vs「Running」)相比有着较强时序性。针对以上的两点,基于 2D CNN(轻便)提出了一个混合注意力机制的 ACTION 模块(对于时序动作建模)
因此,微软亚洲研究院的研究员们提出了一个更通用的解决思路:模仿人类视觉系统。相关工作“S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation”(论文链接:[https://arxiv.org/pdf/2104.00877.pdf](https://arxiv.org/pdf/2104.00877.pdf))已被 CVPR 2021 接受。通过结合人类的视觉系统特点,该工作探究了网络进行单目深度估计的本质,并赋予了网络强大的深度估计泛化能力。
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210606230127.png)
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105130.png)
*ACTION 模块包含三个子模块,分别是时空激励(STE)模块、通道激励(CE)模块和运动激励(ME)模块。*
具体的研究思路是:考虑到人类视觉系统更依赖结构信息来进行感知,例如人可以从仅包含结构信息的草图中获取场景的深度信息,研究员们通过对图像中的结构信息和纹理信息进行解耦,先提取图像中的结构信息,去除无关的纹理信息,再基于结构信息进行深度估计
**推荐:**2D 和 3D CNN 解决不好视频动作识别,字节跳动等提出更高效的 Action 模块
这样设计的深度估计网络去除了对纹理信息的影响,可以做到更强的泛化能力。论文中的模型(S2R-DepthNet, Synthesic to Real Depth Network),仅在合成数据上进行训练,不接触任何目标域的真实图像,所得到的模型无需任何额外操作就可以直接在实际的数据集上取得很好的深度估计效果。该方法远超基于域迁移(Domain Adaptation)的方法。
**论文 3:A Connectomic Study of a Petascale Fragment of Human Cerebral Cortex**
S2R-DepthNet 的网络结构为了获得深度特定的结构表示,利用提出的结构提取模块 STE 从图像中提取出通用的结构表征,如图2所示。可是此时得到的结构表示是一个通用的并且低级的图像结构,其中包含了大量与深度无关的结构信息。例如平滑表面的结构(车道线或者墙上的照片)。
- 作者:Alexander Shapson-Coe、 Michał Januszewski、Daniel R. Berger 等
- 论文地址:[https://www.biorxiv.org/content/10.1101/2021.05.29.446289v1.full.pdf+html](https://www.biorxiv.org/content/10.1101/2021.05.29.446289v1.full.pdf+html)
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105150.png)
**摘要:**谷歌联合哈佛大学 Lichtman 实验室于近日推出了「H01」数据集,这是一个 1.4 PB 的人类脑组织小样本渲染图。H01 样本通过连续切片电子显微镜获得了 4nm 分辨率的图像,利用自动计算技术进行重建和注释,并进行分析以初步了解人类皮层的结构。该项目的主要目标是为研究人脑提供一种新的资源,并改进和扩展潜在的连接组学技术。「H01」数据集包含了大约 1 立方毫米脑组织的成像数据,包括数以万计的重建神经元、数百万个神经元片段、1.3 亿个带注释的突触、104 个校对过的细胞,以及许多额外的亚细胞注释和结构,所有这些都可以通过 Neuroglancer 浏览器界面轻松访问。这是迄今为止人类编制的最全面、最详细的「人类大脑地图」,也是第一个大规模研究人类大脑皮层的突触连接的样本,该成果为研究人类大脑提供了重要资源。这一样本仍然只是整个人类大脑容量的百万分之一,未来的扩展研究仍然是一个巨大的技术挑战。
<div align="center">
图2:整体网络架构
</div>
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210606230201.png)
所以研究员们进一步提出了一个深度特定的注意力模块 DSA 去预测一个注意力图,以抑制这些与深度无关的结构信息。由于只有深度特定的结构信息输入到了最终的深度预测网络中,因此,训练“成熟”的 S2R-DepthNet 泛化能力极强,能够“覆盖”没见过的真实数据
**推荐:**1.3 亿突触、数万神经元,谷歌、哈佛发布史上最强三维「人脑地图」
STE 模块目的是为了从不同风格的图像中提取领域不变的结构信息。如图3所示,STE 模块包含了一个编码器 Es 去提取结构信息,和一个解码器 Ds 去解码编码的结构信息到结构图。
**论文 4:BalanceControlof aNovelWheel-leggedRobot:DesignandExperiments**
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105227.png)
- 作者:ShuaiWang、LeileiCui2,∗,JingfanZhang 等
- 网盘链接:[https://pan.baidu.com/s/1S84x03gYg9YfMshndBBbPw](https://pan.baidu.com/s/1S84x03gYg9YfMshndBBbPw)
- 密码: 9qzz
<div align="center">
图3:STE 模块编码器 Es 训练结构图
</div>
**摘要:**今年 3 月 2 日,腾讯发布多模态四足机器人,引起了极大关注,今日,继 Max 之后,腾讯 Robotics X 实验室又一全新机器人亮相:轮腿式机器人 Ollie(奥利),它像一个灵活的「轮滑小子」,能完成跳跃、360 度空翻等高难度动作。伴随着 Ollie 的亮相,腾讯 Robotics X 实验室也公布了技术细节,相关论文已被 ICRA 2021 收录,介绍了轮腿式机器人平衡控制器的设计思路与实验结果。日前在西安举办的 ICRA 2021,腾讯 AI Lab 及 Robotics X 实验室主任张正友博士也受邀作大会报告,介绍了 Robotics X 实验室在机器人移动研究领域的布局与进展,并分享了 Ollie 的技术细节。
如图4所示,研究员们利用了图像到图像转换的框架去训练 STE 的编码器 Es。而为了使得网络可以适应多个风格的图像,并将通用的图像结构从图像中解耦出来,研究员们用一个风格数据集Painter By Numbers (PBN)作为目标域,合成数据作为源域,通过共有的结构编码器和两个私有的风格编码器,分别编码出源域和目标域的结构信息和风格信息。再利用图像自重建损失、潜层特征自重建损失和对抗损失结合的方式将结构信息和风格信息解耦。通过这种方式训练的结构编码器可以编码出通用的结构信息。
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210606230240.png)
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105302.png)
**推荐:**跳跃、360 度空翻也能轻松搞定。
<div align="center">
图4:真实图像和合成图像的结构图展示
</div>
**论文 5:Heralded Entanglement Distribution between Two Absorptive Quantum Memories**
为了训练 STE 模块的解码器,研究员们在其后加了一个深度估计网络,通过对预测的深度施加损失,便可以通过结构图预测出深度图。此外研究员们还用了一个启发性的损失函数,施加在结构图上,以突出结构图中深度相关的区域。如以下公式所示。
- 作者:Xiao Liu、Jun Hu、Zong-Feng Li
- 论文地址:[https://www.nature.com/articles/s41586-021-03505-3](https://www.nature.com/articles/s41586-021-03505-3)
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105340.png)
**摘要:**当两个量子产生纠缠,一个变了,另一个也会瞬变,无论相隔多远,借助量子纠缠可实现量子通信。近期,中国科学技术大学郭光灿院士团队李传锋、周宗权研究组利用固态量子存储器和外置纠缠光源,首次实现两个吸收型量子存储器之间的可预报量子纠缠,演示了多模式量子中继。这是量子存储和量子中继领域的重大进展。中科院量子信息重点实验室的博士后刘肖和博士研究生胡军为该论文的共同第一作者。《Nature》杂志审稿人对该工作给予高度评价:「这是在地面上实现远距离量子网络的一项重大成就。」
提取出的结构图是通用的结构图,不但包含深度相关的结构信息,同时也包含与深度无关的结构信息,因此通过提出深度相关注意力模型预测注意力图,可以有效地抑制与深度无关的结构信息。由于结构编码器中包含了多个 IN 层,导致其损失了很多判别特征,很难包含语义信息,因此设计的深度相关注意力模块使用了大量的膨胀卷积,可以有效在保持分辨率的情况下增大感受野。
![Image](https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gWicM4B1xuSLPcCWicfdO9g52HAdElqlib8gibKv7Lqx5as4aFZKgVPJGUtw1uCjUqibHSw9H7ibhUK85grw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
通过上述注意力模块,研究员们可以得到与深度相关的结构化表示。直接输入到深度估计网络中,便可进行深度预测,从而在不同领域之间进行迁移。
*原理示意图 。*
研究员们可视化了学到的通用结构表示和深度特定的结构表示,如图2所示,即使合成数据和真实数据在图像上有明显的不同,学到的结构图和深度特定的结构表示也可以共享很多相似性
**推荐:**中科大再登 Nature 封面,郭光灿团队首次实现多模式量子中继
该方法的量化结果如表格1所示。域迁移方法在使用合成数据训练的过程中,加入了目标域的真实场景图像,此方法在训练过程中只用了合成数据图像,已取得了显著的泛化能力的提升。其原因在于抓住了深度估计任务结构化表示的本质特征。
**论文 6:Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future**
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210604105405.png)
- 作者:David Ahmedt-Aristizabal、Mohammad Ali Armin、Simon Denman 等
- 论文地址:[https://arxiv.org/pdf/2105.13137.pdf](https://arxiv.org/pdf/2105.13137.pdf)
<div align="center">
表1:合成数据到真实数据深度估计结果
</div>
**摘要:**在本文中,来自昆士兰科技大学和 CSIRO Data61 的研究者对图神经网络(GNN)模型在医疗诊断和分析方面的研究和进展做了全面回顾,其中解释 GNN 在该领域的重要性,强调了新的医疗分析挑战以及对未来工作的展望。
研究员们提出的结构化表征方法更复合人类视觉系统的特点,因此可以将其推广到其它任务,例如图像分类、图像检测和图像分割等。同时,研究员们也将整个训练过程进行了简化,将所有的结构化表征学习通过一个基于 ResNet 的 backbone 网络来进行实现,通过在 ImageNet 上训练,该模型在多个下游任务(分类、检测和分割)的测试中,均取得了目前最优的模型泛化能力。其相关工作已投稿 NeurIPS 2021,论文和代码将于近期公开。
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210606230326.png)
论文标题:S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation
*用于功能性连接的图卷积网络(GCN)方法及相关应用。*
地址:[https://arxiv.org/pdf/2104.00877.pdf](https://arxiv.org/pdf/2104.00877.pdf)
**推荐:**最新「图深度学习医疗诊断与分析」综述论文,41 页 pdf319 篇文献。
**论文 7:Enhancing Photorealism Enhancement**
- 作者:Stephan R. Richter、Hassan Abu AlHaija、Vladlen Koltun
- 论文地址:[https://arxiv.org/abs/2105.04619](https://arxiv.org/abs/2105.04619)
**摘要:**近日,英特尔推出了一种深度学习系统,可将 3D 渲染图形转换为逼真的图片。侠盗猎车手 5(GTA 5)上进行测试时,该系统给出了令人印象深刻的结果。此前 GTA 5 的开发人员在重建洛杉矶和南加州的景观方面已经做得非常出色,现在借助英特尔的新系统,画面中的高质量合成 3D 图形能够变为现实生活的描绘。照片级渲染引擎处理单帧可能就要花费几分钟甚至几小时,而英特尔的新系统则能够以相对较高的帧速率处理图像。并且研究者表示,他们还将进一步优化该深度学习模型以更快地工作。这是否意味着实时逼真的游戏引擎即将出现?这很难说,因为还有几个基本问题尚未解决。为此他们撰写了一篇论文来描述该系统的性能,并与其他相似系统进行了对比实验。
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210606230400.png)
*左上为 GTA 中的 3D 渲染图,另外 3 幅为英特尔新模型生成结果。*
**推荐:**3D 渲染图变逼真图片,英特尔图像增强新模型将真实感拉满。
![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210603140942.png)
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册