查看: 117|回复: 0

【11月15日】十篇(将)开源论文代码分享

[复制链接]

3

主题

5

帖子

11

积分

新手上路

Rank: 1

积分
11
发表于 2023-1-9 17:12:53 | 显示全部楼层 |阅读模式
【11月14日】九篇(将)开源论文代码分享
#3D目标检测##知识蒸馏##ECCV 2022 Oral#
Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection
浙江大学&穆罕默德·本·扎耶德人工智能大学

利用基于 LiDAR 的检测器或真实的 LiDAR 点数据来指导单目3D检测已经带来了很大的改进,例如,Pseudo-LiDAR 方法。然而,现有的方法通常采用非端到端的训练策略,并且没有充分地利用LiDAR信息,LiDAR数据的丰富潜力没有得到很好的开发。
本篇文章提出用于单目3D检测的跨模态知识蒸馏(CMKD)网络,以有效和直接地将LiDAR模态的知识迁移到图像模态的特征和响应上。此外,通过从大规模的无标签数据中进行知识蒸馏,进一步将CMKD扩展为一个半监督的训练框架,并显著提高了性能。
到提交为止,CMKD在KITTI测试集和Waymo val集上发表的单目3D检测器中排名第一,与之前最先进的方法相比,性能明显提高。

已开源:https://github.com/Cc-Hy/CMKD
论文:https://arxiv.org/abs/2211.07171


#3D目标检测#
Robust Collaborative 3D Object Detection in Presence of Pose Errors
上海交通大学&南京大学&Meta&华威大学等

协作式三维目标检测利用多个代理之间的信息交换,在存在传感器损伤(如遮挡)的情况下提高目标检测的准确性。然而,在实践中,由于不完善的定位导致的姿势估计错误会造成空间信息错位,并大大降低协作的性能。为了减轻姿势错误的不利影响,作者提出 CoAlign,一个对未知姿势错误具有鲁棒性的新型混合协作框架。所提出的解决方案依赖于一种新型的代理-物体姿势图建模,以增强合作代理之间的姿势一致性。此外,采用多尺度数据融合策略,在多个空间分辨率上聚集中间特征。
与之前的工作相比,CoAlign更实用,因为它在训练中不需要任何 ground-truth 姿势的监督,也不需要对姿势错误做具体的假设。通过在多个数据集上对所提出的方法进行了广泛的评估,证明 CoAlign 大大减少了相对定位误差,并在存在姿势误差的情况下达到了最先进的检测性能。

将开源:https://github.com/yifanlu0227/CoAlign
论文:https://arxiv.org/abs/2211.07214


#文本-图像生成#
Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent Spaces
Wand Technologies Inc等

近期,条件性文本-图像生成在质量、多样性和保真度方面有了大量改进。然而,大多数最先进的模型需要许多推理步骤来产生忠实的生成,从而导致终端用户应用的性能瓶颈。
本篇文章介绍了 Paella,一个新的文本-图像模型,需要不到10个步骤来对高保真图像进行采样,使用一个速度优化的架构,允许在不到500毫秒内对单个图像进行采样,同时拥有573M的参数。该模型在一个压缩和量化的隐空间中运作,它以CLIP嵌入为条件,并使用比以前的工作更好的采样功能。除了文本条件下的图像生成,该模型能够进行隐空间插值和图像处理,如inpainting, outpainting和结构编辑。

已开源:https://github.com/dome272/Paella
论文:https://arxiv.org/abs/2211.07292


#Transformer#
CabViT: Cross Attention among Blocks for Vision Transformer
Intellifusion, Shenzhen

由于Vision Transformer(ViT)在图像分类中取得了令人印象深刻的性能,越来越多的研究人员关注设计更有效的Vision Transformer模型。一个普遍的研究思路是通过采用稀疏的注意力或使用局部注意力windows来减少自注意力模块的计算成本。与此相反,作者提出通过密集注意模式来设计高性能的Transformer架构。
具体来说,作者提出ViT块之间的交叉注意(CabViT),它使用同一阶段的前几个块的 tokens 作为 transformers 的多头注意的额外输入。所提出的CabViT增强了具有潜在不同语义的块之间的相互作用,并鼓励更多的信息流向低层,这共同提高了模型的性能和模型的收敛性,但额外成本有限。基于所提出的CabViT,设计一系列CabViT模型,在模型大小、计算成本和准确性之间实现了最佳的权衡。
例如,在不需要知识蒸馏来加强训练的情况下,CabViT在Imagenet上仅用1630万个参数和约3.9G FLOPs就达到了83.0%的最高准确率,与ConvNext相比,节省了近一半的参数和13%的计算成本,同时获得了0.9%的高准确率;与蒸馏的EfficientFormer相比,使用52%的参数但获得了0.6%的准确率。

将开源:https://github.com/hkzhang91/CabViT
论文:https://arxiv.org/abs/2211.07198


#视频异常检测#
LGN-Net: Local-Global Normality Network for Video Anomaly Detection
复旦大学&河南科技大学

视频异常检测(VAD)由于其在智能视频系统中的潜在应用,多年来一直被深入研究。现有的无监督VAD方法倾向于从仅由正常视频组成的训练集中学习规范性,并将偏离这种规范性的实例视为异常。然而,它们往往只考虑局部或全局的规范性。其中一些方法专注于从视频片段的连续帧中学习局部时空表征,以增强对正常事件的表征。但是,强大的表征使这些方法不能代表一些异常情况,并导致漏检。相反,其他方法致力于记忆整个训练视频的全局原型模式,以削弱对异常事件的概括性,这也限制了它们对各种正常模式的表示,并导致错误警报。
为此,本次工作中,作者提出一个双分支模型,Local-Global Normality Network(LGN-Net),以同时学习局部和全局正常性。具体来说,一个分支利用时空预测网络从连续帧中学习外观和运动的演变规律,作为局部规范性,而另一个分支则通过记忆模块记忆整个视频的原型特征,作为全局规范性。LGN-Net通过融合局部和全局规范性,实现了代表正常和异常实例的平衡。与利用单一常态相比,融合后的常态使模型对各种场景更有泛化性。
实验证明了所提出方法的有效性和优越性能。

已开源:https://github.com/Myzhao1999/LGN-Net
论文:https://arxiv.org/abs/2211.07454


#人物交互#
Discovering a Variety of Objects in Spatio-Temporal Human-Object Interactions
上海交通大学&商汤

Spatio-temporal Human-Object Interaction(ST-HOI)检测旨在从视频中检测 HOI,对活动理解至关重要。在日常的HOI中,人类经常与各种物体互动,例如,在打扫卫生时拿着和触摸几十种家用物品。然而,现有的全身物体互动视频基准通常提供有限的物体类别。
本篇文章中引入一个基于AVA的新基准:Discovering Interacted Objects(DIO),包括51个互动和1,000多个对象。因此,作者提出一个ST-HOI学习任务,期望视觉系统能够跟踪人类行为者,检测互动并同时发现互动的物体。尽管today's detectors/trackers excel in object detection/tracking 任务中表现出色,但它们在定位DIO中不同/未见的物体方面表现不尽人意。深刻地揭示了当前视觉系统的局限性,并带来了巨大的挑战。
因此,作者探讨了如何利用时空线索来解决物体发现问题,并设计一个Hierarchical Probe Network(HPN),利用分层的时空人类/环境线索来发现互动的物体。在广泛的实验中,HPN展示了令人印象深刻的性能。

已开源:https://github.com/DirtyHarryLYL/HAKE-AVA
论文:https://arxiv.org/abs/2211.07501


#人脸质量评估##WACV 2023#
IFQA: Interpretable Face Quality Assessment
仁荷大学&忠南大学

现有得人脸修复模型依赖于一般的评估指标,没有考虑到面部区域的特点。因此,近期的作品使用人文科学来评估他们的方法,这是不可扩展的,而且涉及到大量的工作。
本文提一种基于对抗性框架的新的以人脸为中心的指标,其中一个生成器模拟人脸修复,一个判别器评估图像质量。具体来说,每像素判别器能够提供传统指标所不能提供的可解释的评估。此外,考虑到即使是眼睛、鼻子和嘴巴的微小变化也会显著影响人类的认知,该指标强调了面部主要区域。面向脸部的指标始终以令人印象深刻的幅度超过了现有的一般或人脸图像质量评估指标。
实验证明了所提出的策略在各种建筑设计和挑战性场景中的通用性。有趣的是,还发现IFQA可以作为一个目标函数导致性能提高。

已开源:https://github.com/VCLLab/IFQA
论文:https://arxiv.org/abs/2211.07077



#度量学习#
Self-distillation with Online Diffusion on Batch Manifolds Improves Deep Metric Learning
东京大学&National Institute of Informatics

近期的深度度量学习(DML)方法通常只利用类标签来使正样本远离负样本。然而,这种方法通常忽略了隐藏在数据中的关键知识(例如,类内信息变化),这对训练后的模型的泛化是有害的。为了缓解这个问题,本文提出用于DML的 Online Batch Diffusion-based Self-Distillation(OBD-SD)。
具体来说,首先提出一个简单而有效的 Progressive Self-Distillation(PSD),它在训练过程中从模型本身逐步蒸馏知识。PSD 实现的软距离目标可以在样本之间呈现更丰富的关系信息,这对嵌入表征的多样性是有益的。然后,用 Online Batch Diffusion Process(OBDP)来扩展PSD,这是为了捕捉每个批次中流形的局部几何结构,从而可以揭示批次中样本之间的内在关系,产生更好的软距离目标。需要注意的是,OBDP能够恢复原始PSD得到的不充分的流形关系,并取得明显的性能改进。OBD-SD是一个灵活的框架,可以整合到最先进的(SOTA)DML方法中。
在各种基准,即CUB200、CARS196和 Stanford Online Products 上的广泛实验表明,OBD-SD在多个数据集上持续改善了现有DML方法的性能,而增加的训练时间可以忽略不计,取得了非常有竞争力的结果。

已开源:https://github.com/ZelongZeng/OBD-SD_Pytorch
论文:https://arxiv.org/abs/2211.07566


#三维形状#
Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures
以色列特拉维夫大学

近年来,文字引导的图像生成进展迅速,激发了文字引导的形状生成方面的重大突破。最近,有研究表明,使用 score distillation(得分蒸馏)法,人们可以成功地用文字引导 NeRF 模型来生成一个三维物体。作者将得分蒸馏法应用于公开可用的、计算效率高的 "Latent Diffusion Models",该模型将整个扩散过程应用于预训练的自动编码器的紧凑隐空间。由于新RFs在图像空间中运行,用隐得分蒸馏法引导它们的解决方案将需要在每个引导步骤中对隐空间进行编码。相反,作者提出将新RF带到隐空间,从而形成一个Latent-NeRF。通过分析Latent-NeRF,表明虽然Text-to-3D模型可以产生令人印象深刻的结果,但它们本质上是无约束的,可能缺乏引导或强制执行特定3D结构的能力。
为了帮助和指导三维生成,作者提出使用Sketch-Shape来指导Latent-NeRF:一个抽象的几何体,定义了所需物体的粗略结构。然后,提出将这种约束直接整合到Latent-NeRF中的方法。这种文本和形状指导的独特组合允许增加对生成过程的控制。实验还表明,隐得分蒸馏法可以成功地直接应用于三维网格。允许在一个给定的几何体上生成高质量的纹理。实验验证了不同形式的引导的力量和使用隐渲染的效率。

已开源:https://github.com/eladrich/latent-nerf
论文:https://arxiv.org/abs/2211.07600


EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
北京智源人工智能研究院&华中科技大学&浙江大学&北京理工大学

EVA,一个以视觉为中心的基础模型,只用公开的数据来探索规模化的视觉表现的极限。EVA 是一个虚构的 ViT,它被预先训练来重建被掩码图像-文本对齐的视觉特征,以可见的图像斑块为条件。通过这个预案任务,可以有效地将EVA扩展到10亿个参数,并在广泛的代表性视觉下游任务上创造了新的记录,如图像识别、视频动作识别、目标检测、实例分割和语义分割,而无需大量的监督训练。此外,作者发现扩展EVA的量变引起了迁移学习性能的质变,这在其他模型中是不存在的。
例如,EVA在具有挑战性的大词汇量实例分割任务中取得了巨大的飞跃:该模型在有一千多个类别的LVISv1.0数据集和只有八十个类别的COCO数据集上取得了几乎相同的先进性能。除了纯视觉编码器之外,EVA还可以作为一个以视觉为中心的多模式支点来连接图像和文本。从EVA初始化一个巨大的CLIP的视觉塔可以极大地稳定训练,并以更少的样本和更少的计算量胜过从头开始的对应训练,为扩大和加速多模式基础模型的昂贵训练提供了一个新的方向。

将开源:https://github.com/baaivision/EVA
论文:https://arxiv.org/abs/2211.07636

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表