diff --git a/Related Work.pdf b/Related Work.pdf new file mode 100644 index 0000000..a944778 --- /dev/null +++ b/Related Work.pdf @@ -0,0 +1,319 @@ +Related Work​ + +全局对齐方法专注于直接学习整个图像和句子之间的跨模态相似性,通过将它们投影到一个共同的潜 +在空间(Zhang et al., 2018; Long et al., 2016)或利用视觉-语义嵌入(Faghri et al., 2018; Chen et +al., 2021; Zheng et al., 2020; Radford et al., 2021)。因此,它们往往无法深入挖掘视觉对象和文本 +术语之间复杂的关系。因此,当面对涉及多个对象和更复杂描述的自然场景时,它们的性能可能不符 +合预期。 +投影到一个共同的潜在空间:​ +1. bottom-up and top-downattention for image captioning and vqa cvpr Zhang et al., 2018 ​ +视觉-语义嵌入​ +2. Learning the Best Pooling Strategy for Visual Semantic Embedding cvpr Chen et al., 2021​ +3. Vse++: Improving visual-semantic embeddings with hard negatives. Cvpr Faghri et al., 2018​ +局部对齐方法旨在探索图像区域与句子单词之间的局部相关性,以实现更精确的跨模态对齐。 +Karpathy和Fei-Fei(2015)开创了将多模态RNN检测到的局部图像区域与句子中的单词进行对齐的方 +法。随后,Lee等人(2018)利用堆叠交叉注意力来对齐显著区域和关键词,强调了区域-单词对齐的 +有效性,并激发了后续的研究。FPAN(Wang等人,2019)被提出,以强调每个区域内不同位置的重 +要性。CAMP(Wang等人,2020)创新地引入了跨模态信息传递中自适应调节信息流的机制。尽管这 +些方法提高了跨模态检索性能,但它们在细粒度片段的上下文中未能彻底挖掘模态内的相关性。与这 +些方法不同,我们自适应地建模多级对应关系,并全面探索细粒度的视觉-语义相似性,以实现更完整 +的对齐。 +Karpathy和Fei-Fei(2015)开创了将多模态RNN检测到的局部图像区域与句子中的单词进行对齐的 +方法。 +4. Deep visual-semantic alignments for generating image de-scriptions. Karpathy和Fei-Fei + + (2015) cvpr​ +Lee等人(2018)利用堆叠交叉注意力来对齐显著区域和关键词,强调了区域-单词对齐的有效性,并 +激发了后续的研究。 +5. SCAN Lee (2018)​ +FPAN(Wang等人,2019)被提出,以强调每个区域内不同位置的重要性​ +6. Position Focused Attention Network for Image-Text Matching​ +CAMP(Wang等人,2020)创新地引入了跨模态信息传递中自适应调节信息流的机制。​ +7. Camp: Cross-modal adaptive messagepassing for text-image retrieval ICCV 2019​ + 多阶对齐方法旨在利用全局和局部对应关系,以实现更精确的跨模态匹配。Ji等人(2020a)使用注意 +力机制定位局部对齐中有语义意义的部分,并使用记忆网络来捕捉全局对齐中的长期上下文知识。Wei +和Zhou(2020)结合了对抗网络进行局部对齐,并利用注意力机制进行全局对齐。Qu等人(2020) +设计了一个门控自注意力机制用于上下文建模,以及一个多视角摘要模块用于不对称匹配,以获得局 +部和全局对应关系。Messina等人(2021b,a)通过使用Transformer编码器推理网络,在同一模态 +内对区域和单词进行多阶推理。Wang等人(2023)利用不常见的文本内容减轻图像-文本匹配中局部 +对齐的长尾效应,然后利用注意力机制实现全局对齐。他们通过局部关联视觉语义来对齐图像区域和 +文本单词,并机械地汇总匹配区域-单词对之间的语义相似度,以测量整体的图像-文本相关性。​ +Ji等人(2020a)使用注意力机制定位局部对齐中有语义意义的部分,并使用记忆网络来捕捉全局对齐 +中的长期上下文知识 +8. Multi-modal memory enhancement- attention network for image-text matching​ +Wei和Zhou(2020)结合了对抗网络进行局部对齐,并利用注意力机制进行全局对齐。​ +9. Adversarialattentive multi-modal embedding learning forimage-text matching.​ +Qu等人(2020)设计了一个门控自注意力机制用于上下文建模,以及一个多视角摘要模块用于不对称 +匹配,以获得局部和全局对应关系 +• Context-aware multi-view sum-marization network for image-text matching​ +Messina等人(2021b,a)通过使用Transformer编码器推理网络,在同一模态内对区域和单词进行 +多阶推理 +• Transformer reasoning network for image-text matching and retrieval.​ +Wang等人(2023)利用不常见的文本内容减轻图像-文本匹配中局部对齐的长尾效应,然后利用注意 +力机制实现全局对齐 +• Rare-aware attention network for image-textmatching.​ + +图像文本检索的预训练。图像文本检索的预训练可以分为双编码器方法和交叉编码器方法。双编码器 +方法[9, 21, 28, 31, 33]采用两个独立的编码器分别提取图像和文本特征,并使用对比学习来对齐共享嵌 +入空间中的全局表示。交叉编码器方法[1, 3, 14, 15, 17, 18, 22, 34, 35]为图像文本特征的联合编码采用 +单个编码器。为了促进交叉编码器中的跨模态交互,提出了许多代理任务,例如,掩码语言建模 +(MLM)、掩码区域建模(MRM)和掩码图像建模(MIM)等。为了提高双编码器的检索准确性,一 +些方法[21, 31]从交叉编码器中获得启示,通过将MLM、MRM和MIM任务适配到双编码器来增强跨模态 +交互。然而,另一种方法,即通过蒸馏从交叉编码器向双编码器迁移知识,尚未得到充分探索。 +双编码器方法:​ +• Scaling up visual and vision-language representation learning with noisy text supervision. + + 2021​ + • Cots: Collaborative two-stream vision-language pre-training model for cross-modal + retrieva cvpr 2022​ + +• Learningtransferable visual models from natural language supervision. In international + conference on machine learning 2021​ + +• Pre-training visual-semantic embeddings for real-time image-text retrieval 2021​ +• Cookie: Contrastive cross-modal knowledge sharing pre-training for vision-language + + representation. 2021​ +交叉编码器方法:​ +• Vlmo: Unified vision-languagepre-training with mixture-of-modality-experts 2022​ +• Learning universal image-text representation 2019​ +• Align before fuse: Vision and language representation learning with momentum distillation + + 2021​ +• Blip: Bootstrapping language-image pre-training for uni-fied vision-language + + understanding and generation. 2022​ +• A simple and perfor-mant baseline for vision and language 2019​ +• Oscar: Object-semantics aligned pre-training for vision-language tasks. Eccv 2020​ +• Pretraining task-agnostic visiolinguistic representations provision-and-language tasks 2019​ +• Multi-grained vi-sion language pre-training: Aligning texts with visual concepts 2021​ +• Vinvl: Revisiting visual representations in vision-language models. Cvpr 2021​ +知识蒸馏:从交叉编码器到双编码器。之前将知识从交叉编码器蒸馏到双编码器的工作可以分为注意 +力蒸馏方法[32]和 logits 蒸馏方法[24]。注意力蒸馏方法旨在对齐两个模型的跨模态注意力,这需要两 +个先决条件:(1)两个模型都必须采用基于注意力的主干网络,例如 ViT[4]、BERT[10],以生成注意 +力图。(2)双编码器和交叉编码器的输入必须完全相同,以保证它们的注意力图具有相同的形状和语 +义。这使得注意力蒸馏方法的应用范围受限。 +受到图像分类中蒸馏工作的启发,Miech 等人[24]和 Lei 等人[13]将 logits 蒸馏引入图像-文本检索。核 +心思想是通过基于 KL 散度的损失来约束双编码器和交叉编码器的图像-文本相似度得分分布的一致 +性。但是,双编码器和交叉编码器之间显著的相似度分布差异使得有效传递知识变得困难。 +注意力蒸馏方法[32]和 logits 蒸馏方法[24]​ +• 32 Distilled dual-encoder model for vision-language understanding 2022​ +• 24 Thinking fast and slow: Effi-cient text-to-visual retrieval with transformers. 2021​ +神经排序中的排名蒸馏。在文本神经排序领域,已有一些关于排名蒸馏的研究[7, 23, 29]。Sashank等 +人[29]提出了带有交叉熵或均方误差(MSE)损失的排名蒸馏损失,以约束正样本分数的一致性,但由 +于图像-文本检索中相似度分数分布的显著差异,这种方法效果不佳。Sebastian等人[7]提出了Margin- +MSE,它要求学生模型和教师模型在正样本和负样本分数之间保持相同的边际。Aditya等人[23]进一步 + 提出了M3SE,要求学生模型和教师模型在正样本和最难负样本之间保持相同的边际。然而,它只考虑 +了最难负样本,限制了可以转移的知识。此外,MSE损失与双编码器训练的对齐学习不协调,导致学 +习过程中的干扰。相比之下,我们提出的CPRD方法通过对比学习考虑多个难负样本之间的相对顺序, +与双编码器的原始训练损失保持一致。 +排名蒸馏的研究: +• 7 Improving efficient neural ranking models with cross-architecture knowledge distil-lation + + 2020​ +• 23 In defense of dual-encoders for neural ranking. 2022​ +• 29 Rankdistil: Knowledge distillation forranking. 2021​ + +双编码器。这种方法在早期图像文本匹配研究[10,11,21,24,50]中占主导地位。图像和文本标题被独立 +地嵌入到一个联合度量空间中,匹配的图像-标题对彼此靠近。在这种范式下的现有工作通常通过引入 +新的损失函数[6,10]、为每个模态编码器提出新架构[24,52,54],或学习更好的池化方法[4,26]来改进联 +合嵌入空间。例如,VSE++ [10]提出了一种带有难负样本挖掘的三元组损失,这一方法被后续所有图像 +文本匹配工作所采用。VSRN [24]、DSRAN [52]、SAEM [54]实现了图卷积和自注意力来改进编码器架 +构。GPO [4]通过设计一种可以从数据中学习的新池化操作符,取得了具有竞争力的结果。最近,MV- +VSE [26]和SDE [20]提出对每个样本数据使用多个嵌入,而HREM [12]展示了一种双编码器模型,该模 +型可以训练以使用跨模态匹配损失来增强嵌入质量。 +通过引入新的损失函数[6,10]​ +• Prob-abilistic embeddings for cross-modal retrieval cvpr2021​ +• Vse++: Improving visual-semantic embeddings with hard negatives. Cvpr Faghri et al., 2018 提 + + 出了一种带有难负样本挖掘的三元组损失 +为每个模态编码器提出新架构[24,52,54],实现了图卷积和自注意力来改进编码器架构​ +• Visual semantic reasoning for image-text matching iccv 2019 VSRN [24]​ +• Learning dual semantic relations with graph attention for image-textmatching 2020 DSRAN + + [52]​ +• Learning fragment self-attention embeddings for image-textmatching. 2019 SAEM [54]​ +学习更好的池化方法[4,26]来改进联合嵌入空间:​ +• Learning the best pooling strategy for visual semantic embedding cvpr 2021 GPO [4]通过设计 + + 一种可以从数据中学习的新池化操作符,取得了具有竞争力的结果 +• Multi-view visual semantic embedding 2022 MV-VSE [26] 对每个样本数据使用多个嵌入​ +• Learning semantic relationship among instances for image-text matching 2023 cvpr 训练以使 + + 用跨模态匹配损失来增强嵌入质量 + 交叉注意。与独立地嵌入图像和文本不同,这种方法在计算相似度之前,考虑了图像特征和文本标记 +之间的细粒度局部对应关系。SCAN[23]是第一个引入这种在两种模态之间使用交叉注意来寻找它们对 +齐的想法的代表性工作。CAAN[58]后来通过在跨模态交互之后增加一步额外的模态内交互来改进了这 +个想法。SGARF[9]提出从全局和局部对齐中共同学习,以突出重要的图像区域。最近,NAAF[57]鼓励 +不匹配的图像区域和单词对之间的不相似度,以增强相似度匹配,而CHAN[35]提出了一种新的跨模态 +对齐方法,可以忽略冗余的错误对齐。 +CAAN[58]后来通过在跨模态交互之后增加一步额外的模态内交互来改进了这个想法​ +• Context-aware attention network for image-text retrieval cvpr 2020​ +SGARF[9]提出从全局和局部对齐中共同学习,以突出重要的图像区域​ +• Similarity reasoning and filtration for image-text matching 2021 AAAl​ +NAAF[57]鼓励不匹配的图像区域和单词对之间的不相似度,以增强相似度匹配​ +• Negative-aware attention framework for image-textmatching cvpr 2022​ +CHAN[35]提出了一种新的跨模态对齐方法,可以忽略冗余的错误对齐​ +• Fine-grainedimage-text matching by cross-modal hard aligning network cvpr 2023​ +基于图的图像-文本匹配。在双编码器(dual-encoder)和交叉注意力(cross-attention)方法中,有 +一些方法将场景图(scene graphs)作为其流程的一部分,以实现更准确的图像-文本对齐 +[25,28,30,51]。基于这种方法的框架利用图卷积网络(Graph Convolutional Networks, GCN)的能力 +来捕捉视觉区域和文本标记之间的空间和语义关系。例如,SGM[51]、GCN+DIST[25]、GraDual[30] +使用了现成的视觉场景图生成器[56]从图像中提取场景图,然后执行视觉图和文本图之间的跨模态对 +齐。另一方面,GSMN[28]为视觉区域使用全连接图,但还额外使用区域的极坐标来编码它们的空间关 +系。 +将场景图(scene graphs)作为其流程的一部分利用图卷积网络(Graph Convolutional Networks, +GCN)的能力来捕捉视觉区域和文本标记之间的空间和语义关系,以实现更准确的图像-文本对齐 +[25,28,30,51]​ +使用现成的视觉场景图生成器:​ +• Visual-semantic matching by exploring high-order attention and distraction cvpr 2020 + + GCN+DIST[25]​ +• Graph structured network for image-text matching cvpr 2020 GSMN[28]为视觉区域使用全连接 + + 图 +• Gradual: Graph-based dual-modal representation forimage-text matching 2022 GraDual[30]​ +• Cross-modal scene graph matching forrelationship-aware image-text retrieval 2020 SGM[51]​ + 跨模态图像-文本检索。跨模态图像-文本检索的研究是视觉领域的基本任务,许多现有的方法已被提出 +[4,8,10,17,19,21,24,25,33,41,52,53,55,59,60,64,67,68]。一种标准方法是从预先准备好的图像和文本 +数据集中获取文本语言的公共空间作为训练数据[11,16,17,29,35,48,50]。为了获取准确的图像-文本公 +共空间,已经引入了多种方法来改进损失函数和距离空间,例如度量学习[17,68,69]和概率分布表示 +[11,31,56]。为了进行细粒度检索,已经提出了各种扩展[3,33,41,58,66],通过引入对象检测[23,33]、 +对象之间的图基关系[13,42,65]、重新加权策略[3,57,58]和注意力机制[8,67]。这些现有的细粒度检索 +方法表明,对象意识是对局部细节进行跨模态检索的一个关键线索。本文重点关注预训练的V&L模型 +[14,20,26,36–38,51]中的对象意识。我们提出了一个简单而有效的新框架,能够有效提高包含在语义 +上重要的微小对象的图像-文本检索性能。​ +现有的方法:​ +• 2​ +• IMRAM: Iterative Matching With Recurrent Attention Memoryfor Cross-Modal Image-Text + + Retrieval. Cvpr 2020​ +• ViLEM: Visual-Language Error Modeling for Image-Text Retrieval.In: CVPR 2023​ +• VSE++​ +• Look, imagine and match: Improvingtextual-visual cross-modal retrieval with generative + + model cvpr 2018​ +• tance-aware image and sentence matching with selective multimodal lstm cvpr 2017​ +• Saliency-guided attention network for image-sentence matching cvpr 2019​ +• Step-Wise Hierarchical AlignmentNetwork for Image-Text Matching : IJCAI.2021​ +• Scan​ +• Focus your attention: A bidirectional focal attention network for image-text matching 2019​ +• Consensus-aware visual-semanticembedding for image-text matching iccv 2020​ +• Learning two-branch neural networks for image-text matching task TPAMI 2018​ +• Camp​ +• Multi-modality cross attention network for image and sentence matching cvpr 2020​ +• rete-continuous action space policy gradient-based attention for image-text matching cvpr + + 2021​ +• Learning Hierarchical Semantic Correspondences for Cross-ModalImage-Text Retrieval 2022 + + cvpr​ +• Context-aware attention network for image-text retrieval 2020 cvpr​ +• Deep cross-modal projection learning for image-text matching. Eccv 2018​ +一种标准方法是从预先准备好的图像和文本数据集中获取文本语言的公共空间作为训练数据 +[11,16,17,29,35,48,50]​ + • Probabilistic embeddings for cross-modal retrieval cvpr 2021​ +• Finding beans in burgers: Deepsemantic-visual embedding with localization cvpr 2018​ +• VSE++​ +• Deep fragment embeddings for bidirectionalimage sentence mapping 2014​ +• Visual semantic reasoning for image-text matching iccv 2019​ +• Polysemous visual-semantic embedding for cross-modal retrieval cvpr 2019​ +• Preserving semantic neighborhoods for robust cross-modal retrieval eccv 2020​ +运用度量学习来改进损失函数和距离空间 +• VSE++​ +• Deep cross-modal projection learning for image-text matching. Eccv 2018​ +• Towards optimal finegrained retrieval via decorrelated centralized loss with normalized-scale + + layer AAAI 2019​ +概率分布表示改进[11,31,56]:​ +• Probabilistic embeddings for cross-modal retrieval cvpr 2021​ +• Improving Cross-Modal Retrieval With Set of Diverse Embeddings cvpr2023​ +• Multilateral Semantic Relations Modeling for Image Text Retrieval cvpr2023​ +为了进行细粒度检索,已经提出了各种扩展[3,33,41,58,66]​ +• Interclass-relativity-adaptivemetric learning for cross-modal matching and beyond 2020​ +• SCAN​ +• Focus your attention: A bidirectional focal attention network for image-text matching 2019​ +• Universal weighting metriclearning for cross-modal matching cvpr 2020​ +• Negative-aware attention framework forimage-text matching cvpr 2022​ +引入对象检测[23,33]:​ +• Step-wise hierarchical alignment network for image-text matching 2021​ +• SCAN​ +对象之间的图基关系[13,42,65]:​ +• Similarity reasoning and filtration for image-text matching AAAI2021​ +• Graph structured network for image-text matching cvpr 2020​ +• Cross-modalconfidence-aware network for image-text matching AAAI2022​ +重新加权策略[3,57,58]:​ +• Interclass-relativity-adaptivemetric learning for cross-modal matching and beyond 2020​ + • Meta self-paced learning for cross-modal matching. 2021​ +• Universal weighting metriclearning for cross-modal matching cvpr 2020​ +注意力机制[8,67]:​ +• IMRAM: Iterative Matching With Recurrent Attention Memoryfor Cross-Modal Image-Text + + Retrieval.​ +• Context-aware attention network for image-text retrieval. ​ +预训练视觉与语言模型。近年来,使用V&L模型的跨模态图像-文本检索被提出作为一种新的范式 +[14,20, 26, 36–38, 51]。视觉语言预训练,如CLIP[45],通过自监督任务从大量的图像-文本对中训练 +视觉语言对齐。在此范式之前,现有的图像-文本检索方法主要关注使用中等规模数据集(如Flicker +30K和COCO)来训练算法。相比之下,近期使用预训练的V&L模型的跨模态图像-文本检索性能优于那 +些传统的跨模态图像-文本检索方法,实现在多样化数据集上的高零样本性能,并实现了开放词汇检 +索。特别是最近提出的BLIP2[36]在跨模态图像-文本检索中表现出压倒性的性能。然而,最近指出,像 +CLIP这样的V&L模型在定位方面存在弱点,并提出了一些简单的改进[47, 70]。正如后面所述,这种弱 +点在跨模态图像-文本检索中也有所体现。所提出的方法是一个新颖的框架,它可以通过跨模态图像-文 +本检索来克服这一弱点,同时利用现有V&L模型的潜在能力。​ +使用V&L模型的跨模态图像-文本检索[14,20, 26, 36–38, 51]:​ +• Giving Text More Imagination Space for Image-textMatching. 2023​ +• PiTL: Cross-modal Retrieval with Weakly-supervisedVision-language Pre-training via + + Prompting 2023​ +• Scaling Up Visual and Vision-Language Representation Learning With NoisyText Supervision + + icml2021​ +• BLIP-2: Boot-strapping Language-Image Pre-training with Frozen Image Encoders and + + LargeLanguage Models icml2023​ +• BLIP: Bootstrap-ping Language-Image Pre-training for Unified Vision-Language + + Understanding andGeneration icml2022​ +• Align before Fuse: Vision andLanguage Representation Learning with Momentum Distillation + + : NeurIPS2021​ +• ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models. iccv2023​ +对CLIP这样的V&L模型在定位方面存在弱点,提出了一些简单的改进[47, 70]:​ +• What does clip know about a red circle?visual prompt engineering for vlm 2023​ +• Regionclip: Region-based language-image pretraining cvpr 2022​ + 最近,一些细粒度的视觉语言模型(VLM)通过利用视觉对象和文本单词之间的细粒度关系实现了局 +部对齐。一些方法(Chen et al., 2020a; Li et al., 2020b,a; Zhan et al., 2021)使用预训练的对象检测 +器从图像中获取对象特征,并与文本特征对齐,而其他方法(Kim et al., 2021; Yao et al., 2021; Wang +et al., 2022a; Ji et al., 2021; Xue et al., 2023; Jiang et al., 2023)则试图在局部上将固定补丁与文本单 +词对齐。前者依赖于精确的对象检测器,后者关注的是预定义网格内固定补丁之间的单词关系。然 +而,不同的肺病变特征可能会导致这些方法将它们划分为单独的补丁,从而导致语义信息不完整。因 +此,我们设计了一种自适应补丁-单词匹配(AdaMatch)方法。​ +细粒度的视觉语言模型(VLM)通过利用视觉对象和文本单词之间的细粒度关系实现了局部对齐:​ +• Chen et al., 2020a Uniter: Universal image-text representation learning.​ +• Oscar: Object-semantics aligned pre-training for vision-language tasks. Li et al., 2020b,a​ +• Product1m: Towards weakly supervised instance-level product retrieval via cross-modal + + pretraining. CVPR2021 +试图在局部上将固定补丁与文本单词对齐:​ +• Vilt:Vision-and-language transformer without convolution or region supervision. Icml 2021​ +• Filip:Fine-grained interactive language-image pre-training 2021 ​ +• Multi-granularitycross-modal alignment for generalized medical visual representation + + learning. NeurIPS 2022a​ +• Improving joint learning ofchest x-ray and radiology report by word region alignment 2021​ +• Knowledge boosting: Rethinking medical contrastive vision-languagepre-training 2023​ +• Copa: Efficient vision-language pre-training through collaborative object-and patch-text + + alignment 2023​ +医疗领域的预训练语言模型(VLMs)在下游任务中广泛应用于胸部X光片,包括从胸部X光片到报告的 +生成(Chen et al., 2020b, 2021a; Yang et al., 2021; Wang et al., 2022b; Voutharoja et al., 2023; +Yang et al., 2023; Shi et al., 2023; Huang et al., 2023)以及从报告到胸部X光片的生成(Rom-bach +et al., 2022; Chambon et al., 2022b,a; Lee et al., 2023a,b; Han et al., 2024; Shentu and Al +Moubayed, 2024; Hou et al., 2023; Hashmi et al., 2024; Chen et al., 2024)任务。在从胸部X光片到 +报告生成的任务中,Chen et al., 2021a 提出了一个具有共享内存的跨模态记忆网络,以将图像与文本 +对齐,从而提高报告生成的性能。在从报告到胸部X光片生成的任务中,先前的技术通过从医疗报告中 +创建注释过的胸部X光片图像来增强训练数据并解决隐私问题,这些方法被分为基于扩散的方法和基于 +变换器的方法。 +从胸部X光片到报告的生成​ +从报告到胸部X光片的生成​ + diff --git a/文献.pdf b/文献.pdf new file mode 100644 index 0000000..67fa361 --- /dev/null +++ b/文献.pdf @@ -0,0 +1,143 @@ +文献​ + +1M.VoIdSaTlAR:eVtirsiueavlailz​ed Text Embedding For Universal Multi- + +期刊:acl 2024​ +论文链接:https://arxiv.org/abs/2406.04292​ + +本章提出了一个新的跨模态预训练模型,名为FILIP,是一个双流模型,具有基于Transformer的图像 +和文本编码器。对于视觉模态,图像编码器采用Vision Transformer作为输入。对于文本模态,遵循 +Radford等人(2021年)的方法,使用小写的字节对编码(BPE)对文本进行分词,词汇量为 +49,408。在词嵌入层之后,将标记嵌入送入修改后的仅解码器Transformer模型模型。在图像和文本编 +码器之上,文本标记和视觉标记的表示被线性映射到多模态公共空间,并分别进行L2归一化。引入了 +一种新颖的细粒度对比学习目标,配备了跨模态后期交互,它考虑了图像块与文本标记之间的细粒度 +交互。 +图像编码器:在 FILIPbase 中为 ViT-B/32,在 FILIPlarge 中为 ViT-L/14​ +model沿用了CLIP的model​ + A Benchmark for CompositionalText-to-image Retrieval​ + +期刊: icml​ + +U2.nMpAaCirKed: MImulatgime-otedxatlMAlaigtcnheidngC​onceptual Knowledgefor + +NeurIPS-2022​ +链接: + +这项工作试图在新场景的背景下研究图像-文本匹配,它的灵感来源于:人类的大脑能够很好地将任意 +的图像与文本相关联,而无需从如此大规模的成对图像和文本中学习。相反,它存储了关于物体、动 +作、属性等的语义知识,这些知识是多模态对齐的,可以用来关联视觉和语言信息。受到以上启发, +这项工作试图通过模拟类似人脑的知识来处理未配对的图像-文本匹配。论文提出了一种新方法,为了 +去除图像中与单词无关的内容,该方法专注于语义概念,1. 从公开可用的数据集中收集单词及其语义 +相关的图像区域对。然后,2. 它计算原型区域(通过平均所有相关区域的表示来获得)表示并将它们 +与单词对齐,以减轻外观变异的影响。基于对齐的概念知识(即单词-原型区域对),3. MACK能够在 +同一特征空间中桥接图像和文本,以测量它们的跨模态相似性。为了使预计算的一般知识更好地适应 +某些数据集,4. 论文进一步根据区域级循环一致性原则对其进行微调,这不需要配对的图像和文本。 +由于提出的MACK既简单又有效,它可以很好地与现有的图像-文本匹配模型结合,作为一种重排方 +法,进一步提高它们的性能。 + 3. TCeoxmt pMoasticnhginOgb​ject Relations and Attributes for Image- + +来源:CVPR 2024​ +链接: +https://openaccess.thecvf.com/content/CVPR2024/html/Pham_Composing_Object_Relations_a +nd_Attributes_for_Image-Text_Matching_CVPR_2024_paper.html​ + +在这项工作中,文章提出了一种不同于序列模型的方法,将标题表示为一个由对象和属性节点组成的 +场景图,这些节点通过关系边连接。场景图展示了对象-属性和对象-对象对这样的语义结构已经是组织 +好的。为此,提出了CORA,一种用于图像-文本匹配的双编码器模型。​ +在图像方面:重用了GPO ,它是图像-文本匹配的最新 pooling 操作符,将图像嵌入为一个向量。​ +在文本方面:使用图注意力网络,具有强大的关系归纳偏置,为标题生成整体场景图嵌入。​ +损失函数:对比损失,以指导CORA在整体图像-标题级别和局部图像-对象实体级别进行对齐。​ +特点:基于标题的场景图表示来开发双编码器模型中的文本编码器。论文模型显式地学习如何通过对 +象之间的关系来组合对象及其属性,以及场景中的所有对象,以生成一个富含语义信息的文本嵌入向 +量。 + +I4m.Haogwe-TtoexMtaRkeetrCierovassl?E​ncoder a Good Teacherfor Efficient + +来源:CVPR 2024​ +链接: +https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_How_to_Make_Cross_Encoder +_a_Good_Teacher_for_Efficient_CVPR_2024_paper.pdf​ +​ + 文章提出了一种新颖的对比部分排序蒸馏(Contrastive Partial Ranking Distillation, CPRD)方法, +以实现有效的排序知识蒸馏。具体来说,通过对比学习学习难负样本的排序:给定一张图像,首先使 +用双编码器识别前K个难负文本?并获取这些文本的排序。然后,将图像和负文本输入到交叉编码器中 +计算匹配分数,并将负文本分为有效和无效负文本。有效负文本与图像的匹配分数更高,它们的相对 +顺序包含了丰富的跨模态匹配知识。因此,文章使用对比学习将排名较高的有效负文本拉向图像,同 +时将排名较低的文本推开,确保双编码器中有效负文本的排序与交叉编码器中的排序一致性。另一方 +面,无效负文本与图像的匹配分数较低,它们的相对顺序不包含有效信息。因此,只对所有的无效负 +文本使用对比学习推开,而不考虑它们之间的相对顺序。这种方法不要求双编码器和交叉编码器的相 +似度分布相似,克服了由于相似度分布之间巨大差异导致的蒸馏困难。此外,通过对比学习实现了难 +负样本排序学习的目标,与双编码器的训练过程无缝对接。 +本工作的贡献可以概括如下: +• 对从交叉编码器到双编码器有效知识蒸馏进行了全面研究,并确定了三个关键方面。​ +• 提出了对比部分排序蒸馏(CPRD)方法,该方法通过对比学习实现了学习有效难负样本之间相对顺 +序的目标,使从交叉编码器到双编码器的知识传递有效。 + +I5m.Oabgjee-cTte-AxtwRaerteriQeuvaelr​y Perturbation for Cross-Modal + +来源:ECCV 2024​ +链接:https://arxiv.org/abs/2407.12346v2​ + + ​ + 这篇论文提出了一种面向对象的查询扰动方法。查询扰动(Query-Perturbation,简称Q- +Perturbation)通过关注图像中感兴趣的对象信息,即使对象相对较小,也能增强视觉和语言模型的 +对象感知能力。能够对捕捉到小对象的图像进行准确检索。Q-Perturbation的核心机制是在视觉和语 +言模型中的交叉注意力模块,通过增强与对象区域相对应的关键字来提升查询效果。这个方法适用于 +各种V&L模型,且由于该方法无需训练,易于实施,可以避免因数据更新而增加的计算成本以及因重新 +训练而导致的灾难性遗忘。 +旨在扩展现有的V&L模型,同时继承这些模型的高表现力,来提高包含小对象的图像的检索性能。​ +用Q-Perturbation来扰动已经获得的查询,以突出对象区域特征,即利用对象定位(边界框)来实 +现。通过在跨注意力模块之前插入所提出的Q-Perturbation模块,以最少的修改实现一个面向对象的 +跨模态投影模块。接下来,首先描述针对单个对象情况的Q-Perturbation模块,然后将其扩展到多个 +对象 + +6G.rHaiignhe-dOIrmdeargeS-eTmexatnRteictrAielivganlm​ ent for Unsupervised Fine- + +来源:ACL Anthology 2024​ +链接:https://aclanthology.org/2024.lrec-main.714.pdf​ + 新颖的高阶语义对齐(HOSA)模型,用于细粒度图像-文本检索。图1展示了所提出的框架,它包含 +三个主要模块:具有嵌入模态特定片段的特征表示,通过探索全局和局部对应关系以及局部-全局交互 +实现的高阶语义对齐,以及通过聚合局部相似度的跨模态相关性度量。 +特征表示:通过自底向上和自顶向下的注意力机制,Faster-RCNN来选择和提取图像的显著区域的特 +征,用预训练的BERT模型来处理句子文本​ +语义对齐:高阶语义对齐(High-Order Semantic Alignment,HOSA)模块,给定一个视觉特征集以 +及一个文本特征集 ,引入了一个映射函数 来对齐视觉和文本表示。假设图像中的每个区域都可以由对 +应句子的单词线性表示。得益于t-积操作,所获得的映射函数H能够表征在多个实例中隐藏的片段之间 +的局部和全局结构。 + +7.MobileCLIP: Fast Image-Text Models through Multi- +Modal Reinforced Training​ + +来源:CVPR 2024​ +链接: + 一种针对运行时性能优化的高效图像文本模型新系列,以及一种新颖高效的训练方法,即多模态强化 +训练。所提出的训练方法利用了来自图像描述模型和强CLIP编码器集合的知识迁移,通过在强化数据 +集中存储额外知识,避免了训练时的计算开销。 +一种基于数据集强化方法的新型训练方法:i)用额外的信息强化数据集一次,ii)在实验中使用强化过 +的数据集多次;多模态数据集强化变体:通过添加来自一组预训练的强CLIP模型的合成标题和嵌入, +强化了图像-文本DataComp 数据集,获得了DataCompDR。​ +• 设计了一种新的移动设备友好的CLIP模型系列,MobileCLIP。MobileCLIP的变种使用了混合的 + + CNN-Transformer架构,并在图像和文本编码器中应用了结构重参数化技术,以减小模型大小和延 + 迟。 +• 引入了多模态强化训练,这是一种新颖的训练策略,它结合了从预训练的图像描述模型和一组强大 + 的CLIP模型中迁移知识,以提高学习效率。​ +• 引入了我们的强化数据集的两个变种:DataCompDR-12M和DataCompDR-1B。使用 + DataCompDR,展示了与DataComp相比,学习效率提高了10倍到1000倍。​ + +GI8m.eFanigenirena-gtGiEornanai​nbeledsImExapglea-iTneaxbtleAlCigynclmiceInmtaingeM-Redepicoarlt + +来源:ACL 2024​ +细粒度视觉语言模型(VLM)已被广泛用于预定义固定图块与文本单词之间的跨模态局部对齐。然 +而,在医学分析中,病变表现出不同的尺寸和位置,使用固定图块可能导致病变表示不完整。此外, +这些方法通过使用热图来显示可能与文本相关的一般图像区域,而不是特定区域,使得它们的解释不 + 够明确和具体。为了解决这些问题,我们提出了一种新颖的自适应图块-单词匹配(AdaMatch)模 +型,用于将胸片(CXR)图像区域与医学报告中的单词相关联,并将其应用于CXR报告生成,为生成过 +程提供解释性。AdaMatch利用自适应图块与单词之间的细粒度关系,为特定图像区域提供相应单词的 +解释。为了捕捉不同尺寸和位置的异常区域,我们引入了一个自适应图块提取(AdaPatch)模块,以 +自适应地获取这些区域的自适应图块。为了为CXR报告生成任务提供明确的解释性,我们提出了一个基 +于AdaMatch的循环CXR报告生成双向语言模型(AdaMatch-Cyclic)。它使用AdaMatch获取CXR图像 +的关键词和医学报告中的“关键图块”作为提示,指导CXR报告的生成。​ + +9DS.eaRntSas5sineMgta​annddGAeLoaRrgSeCLVIiPsi:oAnL-LaargneguSacgaeleMVoisdioenl f-oLranRgeumaogtee +