2021-04-09发表2026-03-27更新内容模态 / 多模态11 分钟读完 (大约1630个字)

ERNIE-ViL:Knowledge Enhanced Vision-Language Representations Through Scene Graph

背景

论文来自于百度在2020年AAAI上提出的知识增强视觉-语言预训练模型《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph》，在多个比赛上获得了 SOTA 的结果。

2021-03-09发表2026-03-27更新内容模态 / 多模态11 分钟读完 (大约1639个字)

CLIP :Contrastive Language-Image Pre-Training

背景

论文来自 opai 2021 年提出的一个成果，相关可参考信息： github 、 paper 。之前其实并不太了解多模态预训练领域的成果，最近看到了这篇质量很高的成果。