🤖

大语言模型 (LLM)

Large Language Model
基础概念
AI基础模型

大语言模型(Large Language Model,LLM)是一种基于Transformer架构的深度学习模型,通过在数十亿甚至数万亿个文本标记上进行训练,学会了语言的结构、知识和推理能力。

核心原理

LLM本质上是一个"下一个词预测器"——给定一段文本,它预测最可能的下一个词。当这个简单机制扩大到足够大的规模时,涌现出了推理、翻译、编程、创作等复杂能力。

关键特性

  • 规模效应:参数越多(从7B到万亿级),能力越强
  • 上下文窗口:从早期的4K tokens扩展到现在的100万+ tokens
  • 多模态:现代LLM不仅能处理文字,还能理解图片、音频、视频

代表产品

OpenAI GPT-5、Anthropic Claude 4、Google Gemini 2.5、DeepSeek-V3、Qwen3等。

应用场景

聊天助手、内容创作、代码生成、数据分析、教育辅导、客户服务等几乎所有涉及语言的场景。