《AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》是一篇来自于 ICLR 2021 的论文，论文尝试以 end-end transformer 的方式理解图片，并在分类任务上取得了非常好的效果，为 cv 方向挖了一个大坑，最近两年以 transfermer 的方式多次刷新了榜单，其中出现了如 mae、detr之类的好作用。

2021-11-01发表2026-03-27更新内容模态 / 自然语言处理9 分钟读完 (大约1405个字)

Unified Language Model Pre-training for Natural Language Understanding and Generation

基本信息

标题、时间、会议、领域、code、paper 链接

Paper: NeurIPS 2019

Code: https://github.com/microsoft/unilm

这是一篇比较老的论文了，在很多后续的论文中都看到了 unilm 的身影，于是周末又翻出来看了看。UNILM 模型可以同时支持内容理解任务和生成类任务，通过三种语言模型任务来实现，单向语言模型(左到右，又到左)、双向语言模型和句子预测模型。

2021-10-24发表2026-03-27更新基础能力 / 相关技能5 分钟读完 (大约711个字)

常用聚类算法 kmeans

概念

K-means 是 非监督学习算法，经典的聚类算法，数据集没有标签。

相比较而言，KNN 算法作为有监督的分类算法，数据集上有标签，有一个很出名的 knn代码仓库。

2021-07-29发表2026-03-27更新基础能力 / 基础工具1 分钟读完 (大约113个字)

使用faiss建索引

faiss 介绍

faiss 是一个功能强大，使用方便的倒排索引工具。功能强大换句话来说，就是使用起来有很多选项，我们可能得做一些区分。

2021-06-27发表2026-03-27更新内容模态 / 视觉11 分钟读完 (大约1721个字)

Multi-modal Transformer for Video Retrieval (MMT)

基本信息

标题、时间、会议、领域、code、paper 链接

《Multi-modal Transformer for Video Retrieval》在 CVPR 2020 Video Pentathlon Challenge 获得了第一名 (http://thoth.inrialpes.fr/research/MMT/) 。对应的 code / paper ，论文收入 ECCV 2020 Spotlight paper 。

2021-06-23发表2026-03-27更新内容模态 / 多模态8 分钟读完 (大约1268个字)

WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

基本信息

google 在 2021 年又给开源世界带来了一个非常有趣的成果《WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning》， paper / code 。其中包含了 3760w 的图文对，覆盖109个语言。仅描述部分就有25G的数据，还不包括大量的图片链接。

2021-06-09发表2026-03-27更新内容模态 / 自然语言处理10 分钟读完 (大约1439个字)

All NLP Tasks Are Generation Tasks:A General Pretraining Framework

基本信息

标题、时间、会议、领域、code、paper 链接

GLM 于 2021 年发表于 arxiv / code 上，论文提出了一种新的通用语言模型 GLM(General Language Model)。 GLM，使用自回归填空目标进行预训练，可以针对各种自然语言理解和生成任务进行微调。