2021-06-23发表2022-10-08更新内容模态 / 多模态8 分钟读完 (大约1268个字)

WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

基本信息

google 在 2021 年又给开源世界带来了一个非常有趣的成果《WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning》， paper / code 。其中包含了 3760w 的图文对，覆盖109个语言。仅描述部分就有25G的数据，还不包括大量的图片链接。

创新点

概述

这篇论文中是解决了一个新问题，还是用一个新的方法解决了一个传统问题；创新点在哪里，有什么贡献。

近些年来，预训练任务扮演了越来越重要的角色，但不同于 NLP 任务，多模态数据难以获得，在质量上也比较堪忧。因此这篇文章提出Wikipedia based Image Text (WIT) Dataset ，数据可以在这里下载到。

解决方法

具体如何实现的

以一个具体的 wiki 页面为例， https://en.wikipedia.org/wiki/Half_Dome

WIT Half Dome Page with Annotations

页面内包含的标题、页面描述、引用介绍、图片 alt 信息和图像本身，但这个量其实是非常大的。所以其采用了一些措施进行过滤：

1、文本长度需大于 3；

2、移除所有包含通用短语的 alt-text ，如 .png / .jpg / icon / stub / alt text 等；

3、图像必须为 jpg 火 png 格式，因为大多数其他格式的图像用处不大。有描述信息的 gif 文件会被保留。

4、图片本身分辨率横纵都要大于 100；

5、删除了一些过于常见的图像和文本，比如一些小的图标、占位图片等。

6、只保留了有研究允许的图像；

7、删除色情、暴力的内容，大约有0.2%的比例。

在收集完数据后，谷歌的研究人员还邀请了一些标注人员对数据进行判别。

评估结果如下，可以看到相关性其实还蛮高的。

再之后部分的论文与本次研究的核心数据集关系就不大了。

应用场景

论文中工作的意义，可以应用于什么场景。

从这个链接 https://github.com/google-research-datasets/wit/blob/main/DATA.md 下载好文件，我们使用最小的 1%sample 进行评估。

使用 pandas 读取，数据大概长这个样子

我们随便抽取一条来观察一下

使用wiki 链接进入网页，可以看到 image_url 就是右下角的图片

目前来看该研究可以大大提升多模态预训练任务的效果，目前大多数的训练任务都基于 SBU、COCO 等数据集，在数量和质量上都不能与 wit 匹敌。在新的数据集上，也许可以研究出一些更有意思的成果。

但 wiki 的数据过于规整，部分常见的 query，如

「美女」

「男性」

读者可以试一下，有些百科的配图可能跟我们想象中的不太一样。

总结

作者总结

作者对自己成果的总结

在本文中，我们介绍了维基百科图像文本(WIT)数据集——最大的（在写作时）、多语言、多模态、上下文数据集。通过提取与图像和t相关的文本围绕着来自100多种语言的上下文，WIT提供了一个丰富多样的数据集。因此，它非常适合在各种方式上使用，包括预训练多模态模型，fin 调整图像-文本检索模型或构建跨语言表示法等等。我们的详细分析和质量评估，验证了WIT是一个具有强图像的高质量数据集 -文本的对齐方式。我们还实证证明了使用这个数据集作为预训练和微调集，并在此过程中发现了现有数据集的一些缺点。我们相信这一点可以作为丰富的资源，推动多语言、多模态空间的研究，使社区能够构建更好、更强大的非常适合的视觉语言模型到现实世界的任务。

亮点

提供数据集的论文一般大家都非常喜欢，非常好的作品。

参考

一些参考文献或者链接

paper
code

WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

https://iii.run/archives/495148247a09.html

作者

mmmwhy

发布于

2021-06-23

更新于

2022-10-08

许可协议

#多模态

WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

基本信息

创新点

概述

解决方法

应用场景

总结

作者总结

亮点

参考

作者

发布于

更新于

许可协议

评论

目录

分类