2024-02-06发表2024-03-06更新内容模态 / 自然语言处理40 分钟读完 (大约5985个字)

Transformer 中的 position embedding 的设计

前言

Transformer 使用 Attention 结构来进行建模，在 NLP 和 CV 领域都有比较好的效果，其主要结构如下：

Transformer architecure

如果只取左边的部分，则退化为 BERT 类结构。如果只取右边部分，则变成 GPT 类结构。