WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

基本信息

google 在 2021 年又给开源世界带来了一个非常有趣的成果 《WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning》, paper / code 。 其中包含了 3760w 的图文对,覆盖109个语言。 仅描述部分就有25G的数据,还不包括大量的图片链接。

阅读更多