Embedding(向量嵌入)是AI理解世界的基础技术。它把任何东西——文字、图片、声音、代码——转换成一串数字(向量),这串数字编码了该内容的语义信息。
工作原理
- 输入"猫"→ Embedding模型 → [0.23, -0.45, 0.78, ..., 0.12](一个768维向量)
- 语义相近的词(如"猫"和"小猫"),其向量在空间中距离很近
- 语义无关的词(如"猫"和"汽车"),其向量距离很远
关键应用
- 语义搜索:用自然语言搜索文档,而非关键词匹配
- 推荐系统:找到与用户偏好"向量接近"的内容
- RAG系统:将知识库文档转为向量存储,实现精准检索
- 聚类分析:自动发现数据中的相似群组
主流Embedding模型
- OpenAI text-embedding-3-large(3072维)
- BGE-M3(智源,支持中英文)
- Cohere Embed v3
- Jina Embeddings v3
选择建议
中文场景优先选BGE-M3,英文选OpenAI,多语言选Cohere或Jina。维度越高信息越丰富,但存储和检索成本也越高。