WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning
基本信息
google 在 2021 年又给开源世界带来了一个非常有趣的成果 《WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning》, paper / code 。 其中包含了 3760w 的图文对,覆盖109个语言。 仅描述部分就有25G的数据,还不包括大量的图片链接。
创新点
概述
这篇论文中是解决了一个新问题,还是用一个新的方法解决了一个传统问题;创新点在哪里,有什么贡献。
近些年来,预训练任务扮演了越来越重要的角色,但不同于 NLP 任务,多模态数据难以获得,在质量上也比较堪忧。 因此这篇文章提出Wikipedia based Image Text (WIT) Dataset ,数据可以在这里下载到 。
解决方法
具体如何实现的
以一个具体的 wiki 页面为例, https://en.wikipedia.org/wiki/Half_Dome
页面内包含的 标题、页面描述、引用介绍、图片 alt 信息和图像本身,但这个量其实是非常大的。所以其采用了一些措施进行过滤:
1、文本长度需大于 3;
2、移除所有包含通用短语的 alt-text ,如 .png / .jpg / icon / stub / alt text 等;
3、图像必须为 jpg 火 png 格式,因为大多数其他格式的图像用处不大。有描述信息的 gif 文件会被保留。
4、图片本身分辨率横纵都要大于 100;
5、删除了一些过于常见的图像和文本,比如一些小的图标、占位图片等。
6、只保留了有研究允许的图像;
7、删除色情、暴力的内容,大约有0.2%的比例。
在收集完数据后,谷歌的研究人员还邀请了一些标注人员对数据进行判别。
评估结果如下,可以看到相关性其实还蛮高的。
再之后部分的论文与本次研究的核心数据集关系就不大了。
应用场景
论文中工作的意义,可以应用于什么场景。
从这个链接 https://github.com/google-research-datasets/wit/blob/main/DATA.md 下载好文件,我们使用最小的 1%sample 进行评估。
使用 pandas 读取,数据大概长这个样子
我们随便抽取一条来观察一下
使用wiki 链接进入网页,可以看到 image_url 就是右下角的图片
目前来看该研究可以大大提升多模态预训练任务的效果,目前大多数的训练任务都基于 SBU、COCO 等数据集,在数量和质量上都不能与 wit 匹敌。在新的数据集上,也许可以研究出一些更有意思的成果。
但 wiki 的数据过于规整,部分常见的 query,如
- 「美女」
- 「男性」
读者可以试一下,有些百科的配图可能跟我们想象中的不太一样。
总结
作者总结
作者对自己成果的总结
在本文中,我们介绍了维基百科图像文本(WIT)数据集——最大的(在写作时)、多语言、多模态、上下文数据集。通过提取与图像和t相关的文本 围绕着来自100多种语言的上下文,WIT提供了一个丰富多样的数据集。因此,它非常适合在各种方式上使用,包括预训练多模态模型,fin 调整图像-文本检索模型或构建跨语言表示法等等。我们的详细分析和质量评估,验证了WIT是一个具有强图像的高质量数据集 -文本的对齐方式。我们还实证证明了使用这个数据集作为预训练和微调集,并在此过程中发现了现有数据集的一些缺点。我们相信这一点 可以作为丰富的资源,推动多语言、多模态空间的研究,使社区能够构建更好、更强大的非常适合的视觉语言模型 到现实世界的任务。
亮点
提供数据集的论文一般大家都非常喜欢,非常好的作品。
参考
一些参考文献或者链接
WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning