🧮

Embedding (向量嵌入)

Vector Embedding

技术原理

AI基础数学

Embedding（向量嵌入）是AI理解世界的基础技术。它把任何东西——文字、图片、声音、代码——转换成一串数字（向量），这串数字编码了该内容的语义信息。

工作原理

输入"猫"→ Embedding模型 → [0.23, -0.45, 0.78, ..., 0.12]（一个768维向量）
语义相近的词（如"猫"和"小猫"），其向量在空间中距离很近
语义无关的词（如"猫"和"汽车"），其向量距离很远

关键应用

语义搜索：用自然语言搜索文档，而非关键词匹配
推荐系统：找到与用户偏好"向量接近"的内容
RAG系统：将知识库文档转为向量存储，实现精准检索
聚类分析：自动发现数据中的相似群组

主流Embedding模型

OpenAI text-embedding-3-large（3072维）
BGE-M3（智源，支持中英文）
Cohere Embed v3
Jina Embeddings v3

选择建议

中文场景优先选BGE-M3，英文选OpenAI，多语言选Cohere或Jina。维度越高信息越丰富，但存储和检索成本也越高。