Transformer是2017年Google在论文《Attention Is All You Need》中提出的革命性神经网络架构。它摒弃了传统的循环结构(RNN/LSTM),完全基于注意力机制,实现了训练的并行化和长距离依赖的有效建模。
核心组件
- Self-Attention(自注意力):让每个词关注句子中的所有其他词,理解上下文关系
- Multi-Head Attention:多个注意力头并行工作,从不同角度理解语义
- Positional Encoding:位置编码,让模型知道词的顺序(因为并行处理丢失了顺序信息)
- Feed-Forward Network:全连接前馈网络,进行非线性变换
Encoder vs Decoder
- Encoder-Only(如BERT):擅长理解任务(分类、实体识别)
- Decoder-Only(如GPT系列):擅长生成任务(文本续写、对话)
- Encoder-Decoder(如T5):翻译、摘要等序列转换任务
历史意义
Transformer的出现直接催生了BERT、GPT、T5等一系列里程碑模型。"Attention Is All You Need"论文被引用超过10万次,是AI领域最具影响力的论文之一。ChatGPT、Claude、Gemini等所有现代AI助手都建立在Transformer架构之上。