「12月22日」十一篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

#手-物抓取#

GOAL: Generating 4D Whole-Body Motion for Hand-Object Grasping

马普所

生成运动逼真的数字人有很多应用,因此被广泛研究,但现有的方法主要集中在身体的主要肢体上,忽略了手和头。手部虽已被单独研究,但重点是生成真实的静态抓取物体。为了合成与世界互动的虚拟人物,需要同时生成全身运动和真实的手部抓握。这两个子问题本身就很有挑战性,如果结合在一起,姿势的状态空间就会大大增加,手和身体运动的尺度也不同,全身的姿势和手的抓握必须一致,满足物理约束,并且是合理的。此外,头部也参与其中,因为动画必须看着物体才能与之互动。

本次研究任务,首次解决了生成 avatar 抓取未知物体的全身、手和头运动的问题。作为输入,所提出方法 GOAL,需要一个三维物体、它的位置和一个起始三维身体姿势和形状。GOAL 使用两个新的网络输出一个全身姿势序列。首先,GNet生成一个目标全身抓握,具有现实的身体、头部、手臂和手的姿势,以及手与物体的接触。其次,MNet生成起始姿势和目标姿势之间的运动。

它要求 avatar 以脚踏实地的方式走向物体,将头转向它,伸出手,以逼真的手的姿势和手与物体的接触抓住它。为了实现这一目标,网络利用一种结合SMPL-X身体参数和三维顶点偏移的表示方法。

在GRAB数据集上对GOAL进行了定性和定量的训练和评估。结果表明,GOAL对未见过的物体有很好的概括性,表现优于基线。GOAL在合成真实的全身物体抓取方面迈出了一步。

将开源:https://goal.is.tuebingen.mpg.de/

论文:https://arxiv.org/abs/2112.11454

「12月22日」十一篇(将)开源论文代码分享

#Transformer#

Learned Queries for Efficient Local Attention

特拉维夫大学&Reichman University

Vision Transformers(ViT)作为强大的视觉模型,与前些年主导视觉研究的卷积神经网络不同,Vision Transformers 享有捕捉数据中长距离依赖关系的能力。然而,任何 Transformers 架构的一个组成部分,即自关注机制,存在着高延迟和低效率的内存利用,使其不太适合高分辨率的输入图像。

为此,分层视觉模型在非交错窗口上局部采用了自关注。这种松弛将复杂性降低到与输入大小成线性关系;然而,它限制了跨窗口的互动,损害了模型的性能。

在本文中,提出一个新的移位不变的局部注意力层,query and attend(QnA),它以重叠的方式在局部聚集输入,很像卷积。QnA的关键思想是引入学习查询,这允许快速和有效的实施。通过将其纳入一个分层的 Vision Transformers 模型来验证层的有效性。

以及展示在速度和内存复杂性方面的改进,同时实现了与最先进的模型相媲美的准确性。最后,该层随着窗口大小的变化扩展得特别好,需要的内存比现有方法少10倍,而速度却快5倍。

将开源:https://github.com/moabarar/qna

论文:https://arxiv.org/abs/2112.11435

「12月22日」十一篇(将)开源论文代码分享

#图像生成#

StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

华盛顿大学&Adobe Research&斯坦福大学

StyleSDF,是一种高分辨率、三维一致的图像和形状生成技术。该方法只在单视图RGB数据上进行训练,并站在 StyleGAN2 的肩膀上进行图像生成,同时解决了3D感知GAN的两个主要挑战:1)高分辨率、视图一致的RGB图像的生成,2)详细的3D形状。通过合并基于SDF的3D表示和基于风格的2D生成器来实现这一目标。

三维隐含网络渲染了低分辨率的特征图,基于风格的网络从中生成了视图一致的1024×1024图像。值得注意的是,基于SDF的三维建模定义了详细的三维表面,导致了一致的体积渲染。在视觉和几何质量方面,所提出方法显示出与现有技术水平相比更高的质量结果。

将开源:https://github.com/royorel/StyleSDF

论文:https://arxiv.org/abs/2112.11427

「12月22日」十一篇(将)开源论文代码分享

#图像分割##Transformer#

iSegFormer: Interactive Image Segmentation with Transformers

iSegFormer,一种新型的基于 Transformer 的交互式图像分割方法。iSegFormer建立在现有的分割 Transformer 之上,将用户的点击作为额外的输入,允许用户交互地、反复地完善分割掩码。并在几个公共基准上评估了iSegFormer,包括自然和医学图像。

评估结果显示,iSegFormer 在自然图像上取得了与最新技术相当的结果,并且无需微调就能很好地推广到医学图像上。评估结果表明,所提出的方法具有很强的通用性和有效性。

已开源:https://github.com/qinliuliuqin/iSegFormer

论文:https://arxiv.org/abs/2112.11325

「12月22日」十一篇(将)开源论文代码分享

#文本检测#

Hateful Memes Challenge: An Enhanced Multimodal Framework

脸书人工智能提出的 Hateful Meme 挑战赛吸引了世界各地的参赛者。该挑战的重点是检测多模态 Meme 中的 hateful speech(仇恨性言论)。各种最先进的深度学习模型已经被应用于这个问题,挑战赛排行榜上的表现也在不断提高。

本文中,作者加强了 hateful(仇恨)检测框架,包括利用 Detectron 进行特征提取,探索不同损失函数的 VisualBERT 和 UNITER 模型的不同设置,研究 hateful memes(仇恨记忆)和 the sensitive text features(敏感文本特征)之间的关联,最后建立集成方法来提高模型性能。

在挑战赛的测试集上,微调的VisualBERT、UNITER和合集方法的AUROC分别达到了0.765、0.790和0.803,击败了基线模型。

已开源:https://github.com/yatingtian/hateful-meme

论文:https://arxiv.org/abs/2112.11244

「12月22日」十一篇(将)开源论文代码分享

#运动预测#

Learning Human Motion Prediction via stochastic Differential Equations

吉林大学&浙江大学&南洋理工大学&杭州电子科技大学

文章提出一种新的方法,基于stochastic differential equations(随机微分方程)和 path integrals(路径积分)对人体运动问题进行建模。在所提出方法中,每个骨骼关节的运动曲线被表述为一个基本的随机变量,并以Langevin 方程为模型。GAN被用来模拟路径积分,对可能的路径进行优化。

实验结果表明,所提出方法在短期预测和长期预测方面都大大超过了最先进的方法。

总的来说,本次工作研究了利用随机微分方程和路径积分来模拟人类运动的新想法,并为这个方向奠定了理论基础。并相信这是迈向更精确的运动预测和理论突破的坚实一步。

将开源:https://github.com/herolvkd/MM-2021-StochasticMotionPrediction

论文:https://arxiv.org/abs/2112.11124

「12月22日」十一篇(将)开源论文代码分享

RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality

清华&中科院&旷视&亚伯大学

与卷积层相比,全连接(FC)层在建模长距离依赖性方面更出色,但在捕捉局部模式方面更差,因此通常不太适合用于图像识别

本文提出一种方法, "Locality Injection",通过将平行信念核的训练参数合并到FC核中,将局部先验因素纳入FC层。局部注入可以被看作是一种新颖的结构重参数化方法,因为它通过转换参数来等效地转换结构。

在此基础上,提出 RepMLP Block 多层感知器(MLP)块,它使用三个FC层来提取特征,以及一个名为RepMLPNet的新型架构。分层设计使RepMLPNet区别于其他同时提出的视觉MLP。由于它能产生不同层次的特征图,它有资格作为下游任务(如语义分割)的骨干模型。

研究结果表明:

1)位置注入是MLP模型的一种通用方法;

2)与其他MLP相比,RepMLPNet具有良好的准确性-效率权衡;

3)RepMLPNet是第一个能够无缝转移到城市景观语义分割的MLP。

已开源:https://github.com/DingXiaoH/RepMLP

论文:https://arxiv.org/abs/2112.11081

「12月22日」十一篇(将)开源论文代码分享

#AAAI 2022##实例分割#

SOIT: Segmenting Objects with Instance-Aware Transformers

Hikvision Research Institute&ref="https://www.baidu.com/link?url=1XbL-F_1z6iuiZZAiXMuGdgXFmoOt94TQwX-dYg3UsWIbbEA5vGqg7gZCXgsh_HZ&wd=&eqid=a411ee9e000684020000000461c2c8b8">西安交通大学

本文提出一个端到端的实例分割框架,SOIT,它用实例感知Transformer来分割对象。受DETR~cite启发,所提出方法将实例分割视为一个直接的集合预测问题,并有效地消除了许多手工制作的组件,如RoI裁剪、一对多标签分配和非最大抑制(NMS)的需要。

在SOIT中,全局图像背景下,多个查询被学习来直接推理一组语义类别、边界盒位置和像素级掩码的物体嵌入。类别和边界框可以很容易地通过一个固定长度的向量嵌入。特别是像素大小的掩码,是由一组参数嵌入的,以构建一个轻量级的实例感知Transformer。之后,全分辨率的掩码由实例感知Transformer产生,不涉及任何基于RoI的操作。

总的来说,SOIT引入一个简单的单阶段实例分割框架,该框架既无RoI也无NMS。在MS COCO数据集上的实验结果表明,SOIT明显优于最先进的实例分割方法。此外,在一个统一的查询嵌入中对多个任务的联合学习也能大幅提高检测性能。

将开源:https://github.com/yuxiaodongHRI/SOIT

论文:https://arxiv.org/abs/2112.11037

「12月22日」十一篇(将)开源论文代码分享

#密集预测##Transformer#

MPViT: Multi-Path Vision Transformer for Dense Prediction

ETRI&韩国科学技术院&AITRICS

密集的计算机视觉任务,如目标检测和分割,需要有效的多尺度特征表示来检测或分类具有不同大小的物体或区域。虽然卷积神经网络(CNN)一直是此类任务的主流架构,但近期所推出的 Vision Transformer(ViTs)旨在取代它们作为主干。与CNN类似,ViTs建立一个简单的多级结构(即从细到粗),用于单尺度patche 的多尺度表示。

本次研究工作,以不同于现有Transformer 的视角,探索多尺度 patch 嵌入和多路径结构,构建 Multi-Path Vision Transformer(MPViT)。MPViT通过使用重叠卷积补丁嵌入,将相同大小~(即序列长度)的特征与不同尺度的补丁同时嵌入。然后,不同尺度的标记通过多条路径独立地送入Transformer编码器,并将得到的特征聚合起来,从而在同一特征水平上实现精细和粗略的特征表示。由于多样化、多尺度的特征表示,MPViTs从微小~(5M)扩展到基本~(73M),在ImageNet分类、目标检测、实例分割和语义分割上,始终比最先进的 Vision Transformer 取得更优异的性能。这些广泛的结果表明,MPViT 可以作为一个多功能的骨干网络,用于各种视觉任务。

将开源:https://github.com/youngwanLEE/MPViT

论文:https://arxiv.org/abs/2112.11010

「12月22日」十一篇(将)开源论文代码分享

#航空检测#

Mapping industrial poultry operations at scale with deep learning and aerial imagery

微软&Stanford RegLab

集中式动物饲养场(CAFOs)对空气、水和公众健康构成了严重的风险,但事实证明对其进行监管具有挑战性。美国政府问责局指出,一个基本挑战是缺乏关于CAFO的全面位置信息。作者使用美国农业部的国家农业图像计划(NAIP)1米/像素的航空图像来检测整个美国大陆的家禽CAFOs。训练卷积神经网络(CNN)模型,以识别单个禽舍,并将性能最好的模型应用于超过42TB的图像,以创建第一个全国性的、开源的家禽CAFOs数据集。根据加州10个手工标注县的家禽CAFO设施位置的验证集来验证模型的预测,并证明这种方法在填补环境监测的空白方面具有巨大的潜力。

已开源:https://github.com/microsoft/poultry-cafos/

论文:https://arxiv.org/abs/2112.10988

「12月22日」十一篇(将)开源论文代码分享

#多标签识别##AAAI 2022#

Structured Semantic Transfer for Multi-Label Recognition with Partial Labels

广东工业大学&中山大学

多标签图像识别是一项基本而实用的任务,因为现实世界的图像本来就拥有多个语义标签。然而,由于输入图像和输出标签空间的复杂性,很难收集大规模的多标签标注。为了降低标注成本,提出一个 structured semantic transfer(SST)框架,该框架能够用部分标签训练多标签识别模型,即每幅图像只有一些标签是已知的,而其他标签是缺失的(也称为未知标签)。

该框架由两个互补的迁移模块组成,探索图像内和跨图像的语义关联,以迁移已知标签的知识,为未知标签生成伪标签。具体来说,图像内语义迁移模块学习图像特定的标签共现矩阵,并根据该矩阵将已知标签映射到补充未知标签。同时,一个跨图像迁移模块学习特定类别的特征相似性,帮助补充具有高相似性的未知标签。最后,已知和生成的标签都被用来训练多标签识别模型。

在微软 COCO、Visual Genome 和 Pascal VOC 数据集上进行的广泛实验表明,所提出的 SST 框架获得了比目前最先进的算法更优越的性能。

将开源:https://github.com/HCPLab-SYSU/HCP-MLR-PL

论文:https://arxiv.org/abs/2112.10941

「12月22日」十一篇(将)开源论文代码分享

相关新闻

联系我们
联系我们
公众号
公众号
在线咨询
分享本页
返回顶部