车辆重识别(利用扩散模型合成有效数据进行行人再识别预训练)论文阅读2024/9/27

[1]Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training
作者:Ke Niu1, Haiyang Yu1, Xuelin Qian2, Teng Fu1, Bin Li1, Xiangyang Xue1*单位:1复旦大学, 2西北工业大学

摘要:
现有的行人重识别( Re-ID )方法主要使用ImageNet - 1K数据集进行模型初始化,由于存在较大的领域鸿沟,难免会出现次优的情况。其中一个关键的挑战是构建大规模的行人Re - ID数据集非常耗时。之前的一些工作通过从互联网(例如, LUPerson)中收集人物图像来解决这个问题,但它难以从未标记的、不可控的和有噪声的数据中学习。在本文中,我们提出了一种新的范式Diffusion - ReID,在不需要任何数据收集和标注成本的情况下,基于已知的身份来有效地增强和生成多样化的图像。在技术上,该范式分生成和过滤两个阶段展开。在生成阶段,我们提出了语言提示增强( Language Prompts Enhancement,LPE )来保证输入图像序列和生成图像之间的ID一致性。在扩散过程中,我们提出了多样性注入( DI )模块来增加属性多样性。为了使生成的数据具有更高的质量,我们应用了一个Re - ID置信度阈值滤波器来进一步去除低质量图像。得益于我们提出的方法,我们首先创建了一个新的大规模行人重识别数据集Diff - Person,该数据集由来自5,183个身份的超过777K张图片组成。接下来,我们在Diff - Person上预训练构建一个更强的行人重识别骨干。在6个广泛使用的设置中,对4个人Re - ID基准进行了广泛的实验。与其他预训练和自监督的竞争者相比,我们的方法表现出了显著的优越性。

主要贡献:
基于扩散模型,我们开发了一个行人数据生成和过滤范式Diffusion - ReID,该范式可以有效地扩展现有的具有ID一致性和属性多样性的标注数据集。我们建立了一个由5,183个身份的超过777K张图片组成的带标注的行人Re - ID预训练数据集Diff - Person。该数据集是对现有数据集进行扩展,解决行人重识别中数据缺失和数据不平衡问题的重要一步。 我们基于Diff - Person预训练了一个行人重识别骨架,相比目前广泛使用的ImageNet - 1K预训练骨架,在6个广泛使用的场景下取得了提升。

创新点:
与现有的扩散模型不同,我们额外引入了语言提示增强( Language Prompts Enhancement,LPE )模块和多样性注入( Diversity Injection,DI )模块,分别用于保证ID一致性和属性多样性。具体来说,LPE模块将特定的ID图像序列和类别级别的提示P作为输入,通过预训练的图像描述模型生成具有细粒度局部细节和全局上下文信息的增强提示PE。在PE中,我们加入了一个身份信息形象代言人,用于在特征层面上映射文本嵌入和图像嵌入之间的ID信息。在扩散过程中,我们提出了多样性注入( DI )模块来提高属性多样性。具体来说,我们使用预训练的扩散模型生成一个属性参考集,并使用生成的图像计算特定细粒度的先验保留损失来微调扩散模型。在滤波阶段,采用Re - ID置信度阈值滤波器去除低质量图像。

简介:
Rand Person [ 8 ]开发了一种生成具有各种衣服、种族和属性的3D字符的方法,然后使用Unity3D模拟虚拟环境。PersonX [ 9 ]使用了一个开源的合成数据引擎PersonX来合成手工制作的3D人物模型。然而,这些方法存在一些缺陷:1 )它们与真实世界的数据之间存在明显的差异;2 )存储、共享和传输大量的虚拟环境和手工制作的三维人体模型成本很高;3 )特定的数据源限制了数据的数量和多样性。

框图:

在这里插入图片描述
在这里插入图片描述
[1] Niu, K., Yu, H., Qian, X., Fu, T., Li, B., & Xue, X. (2024). Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training. arXiv preprint arXiv:2406.06045.


http://www.niftyadmin.cn/n/5683009.html

相关文章

CSS 的背景样式

1.1 背景颜色 1.2 背景图片 1.3 背景平铺 1.4 背景图片位置 1.4.1 方位名词 1.4.2 精确单位 1.4.3 混合单位 1.5 背景图像固定 1.6 背景复合写法 1.7 背景色半透明 1.8 总结

总结uwsgi+anaconda+django启动遇到的问题

一、问题描述 Django中,anconda环境下安装uwsgi,启动遇到的问题: 按照正常的启动方式启动: uwsgi --ini uwsgi_py.ini 但是报错: Traceback (most recent call last):File "/opt/myproject/myproject/wsgi.p…

2024网安周 | 百度安全深度参与,探索人工智能与数字安全的融合发展之路

9月9日-15日,2024年国家网络安全宣传周在全国范围内统一举行,本届网安周继续以“网络安全为人民,网络安全靠人民”为主题,由中央宣传部、中央网信办、教育部、工业和信息化部、公安部、中国人民银行、国家广播电视总局、全国总工会…

【AI变现】探索AI领域的财富密码:5大AI变现路径解析

随着现代科技的高速发展,AI已经不只是一个概念工具,它正在深刻地改变着我们的生活方式、工作模式和商业模式。 在这个AI无处不在的时代,如何抓住机遇,利用AI技术创造财富,成为了许多人关注的焦点。 接下来&#xff0…

QT--基础

将默认提供的程序都注释上意义 0101.pro QT core gui #QT表示要引入的类库 core:核心库 gui:图形化界面库 #如果要使用其他库类中的相关函数,则需要加对应的库类后,才能使用 greaterThan(QT_MAJOR_VERSION, 4): QT wid…

HI3520DV510 22AP80/SS522V100 芯片及开发板

22AP80是针对多路高清/超高清(1080P/4M/5M/4K)DVR产品应用开发的新一代专业SoC芯片。 22AP80集成了ARM Cortex-A7四核处理器和性能强大的图像分析工具推理引擎,支持多种智能算法应 用。同时,22AP80还集成了多路MIPI D-PHY接口输入…

前端vuex

需要共享的数据适合存储到vuex中 state基本使用 如果开启strict严格模式,直接修改上图的age会报错提示。不能在组件中直接修改state 总结: 分模块使用

网络服务管理

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 # 学习方法: ## 当天…