🧮

Embedding (向量嵌入)

Vector Embedding
技术原理
AI基础数学

Embedding(向量嵌入)是AI理解世界的基础技术。它把任何东西——文字、图片、声音、代码——转换成一串数字(向量),这串数字编码了该内容的语义信息。

工作原理

  • 输入"猫"→ Embedding模型 → [0.23, -0.45, 0.78, ..., 0.12](一个768维向量)
  • 语义相近的词(如"猫"和"小猫"),其向量在空间中距离很近
  • 语义无关的词(如"猫"和"汽车"),其向量距离很远

关键应用

  • 语义搜索:用自然语言搜索文档,而非关键词匹配
  • 推荐系统:找到与用户偏好"向量接近"的内容
  • RAG系统:将知识库文档转为向量存储,实现精准检索
  • 聚类分析:自动发现数据中的相似群组

主流Embedding模型

  • OpenAI text-embedding-3-large(3072维)
  • BGE-M3(智源,支持中英文)
  • Cohere Embed v3
  • Jina Embeddings v3

选择建议

中文场景优先选BGE-M3,英文选OpenAI,多语言选Cohere或Jina。维度越高信息越丰富,但存储和检索成本也越高。