🤖

大语言模型 (LLM)

Large Language Model

基础概念

AI基础模型

大语言模型（Large Language Model，LLM）是一种基于Transformer架构的深度学习模型，通过在数十亿甚至数万亿个文本标记上进行训练，学会了语言的结构、知识和推理能力。

核心原理

LLM本质上是一个"下一个词预测器"——给定一段文本，它预测最可能的下一个词。当这个简单机制扩大到足够大的规模时，涌现出了推理、翻译、编程、创作等复杂能力。

关键特性

规模效应：参数越多（从7B到万亿级），能力越强
上下文窗口：从早期的4K tokens扩展到现在的100万+ tokens
多模态：现代LLM不仅能处理文字，还能理解图片、音频、视频

代表产品

OpenAI GPT-5、Anthropic Claude 4、Google Gemini 2.5、DeepSeek-V3、Qwen3等。

应用场景

聊天助手、内容创作、代码生成、数据分析、教育辅导、客户服务等几乎所有涉及语言的场景。