大模型 (Large Models)

从 ChatGPT 到 DeepSeek,大模型正以摧枯拉朽之势重塑我们的世界。本章我们将揭开大模型神秘的面纱,从底层的算法与训练逻辑,到驾驭 AI 的“魔法咒语”——提示词工程,再到深入解析 Transformer 等颠覆性技术架构。

7.1 大模型概述

1. 理解大模型的四大基石

要理解大模型,首先要搞懂四个贯穿始终的核心概念:算法、模型、训练与推理。

算法 (Algorithm)

解题方法:明确的步骤或规则(类比解方程步骤)。它是指导模型学习、提取数据特征的基石。

模型 (Model)

学到的知识:由算法学习数据后获得的具体能力。本质是描述数据间关系或规律的网络结构。

训练 (Training)

学习过程:输入海量数据,计算误差并通过反向传播不断调整参数,直到掌握规律。目标是获得泛化能力。

推理 (Inference)

应用阶段:训练完成后参数固定。接收新输入数据,根据已学到的规律生成预测或决策结果。

2. 什么是大模型?

大模型是指参数规模宏大(百亿至万亿级)的深度学习模型。它具有海量参数、强大的数据处理与学习能力,以及卓越的泛化能力(举一反三)

大模型的工作流程分为两个关键阶段:

  • 预训练 (Pre-training):在海量数据上进行自监督学习,构建“通用知识库”。(就像让AI吃遍全网文本,玩“词语填空”游戏)
  • 微调 (Fine-tuning):给AI上“专业课”,用特定领域的标注数据进行精细化调整,提升特定任务表现。

大模型分类

  • 大语言模型 (LLM)
    专精自然语言,如 GPT 系列、DeepSeek、文心一言。
  • 大视觉模型 (LVM)
    处理图像分析,如 ViT、Sora、Stable Diffusion。
  • 多模态大模型 (MLLM)
    图文声视融合,如 GPT-4o、Gemini。

7.2 大模型提示词 (Prompt Engineering)

提示词(Prompt)是用户与 AI 交互的核心媒介,本质上是在为模型建立特定的上下文环境。设计良好的提示词是让 AI 高效工作的关键魔法。

🪄 提示词设计的核心公式 (四大组成要素)

1. 核心指令

明确“要做什么”。用准确的动词,如:分析、撰写、总结、翻译。

2. 背景信息

划定“创作范围”。提供时间、空间、角色视角(如:假设你是架构师)。

3. 输出规范

定义“呈现形式”。如:使用表格展示、用Markdown格式、限制200字内。

4. 修饰条件

添加“个性调料”。如:语气幽默、通俗易懂、不使用专业术语。

提示词避坑指南与优化对比

❌ 错误/基础提示词 🔍 问题分析 ✅ 优化后的进阶提示词
“分析《红楼梦》” 目标模糊,无结构要求 “分三步分析贾宝玉的人物形象:1. 列举3个典型情节(注明回目);2. 从每个情节提取2个性格特征;3. 用表格对比少年期与成年期的性格变化。”
“解释量子力学” 专业度与受众不匹配 “用‘打篮球传球’的比喻向初中生解释量子纠缠现象,避免使用数学公式,字数控制在200字以内。”
“修改我的作文” 未指定改进方向 “请从以下角度修改作文:1. 将长句拆分为短句(标记修改处);2. 添加2处环境描写;3. 删除重复论证段落。”

思维链推演 (Chain of Thought, CoT)

在解决复杂数学或逻辑问题时,通过要求 AI “分步思考”来提高准确率。

"请分步骤解答以下微积分问题,并在每一步用括号标注使用的定理:
(1) 首先判断函数连续性;
(2) 计算左右极限;
(3) 应用洛必达法则..."

多模态协同与代码生成

利用提示词让 AI 协调不同形式的数据输出(如生成图表代码、游戏代码)。

"请根据《红楼梦》的情节内容,提炼出其中的人物关系,并以思维导图的方式展示,同时附上相应的 Mermaid 代码。"

7.3 重要的大模型架构

Transformer 模型 (大模型的绝对基石)

2017年由 Google 团队提出,彻底颠覆了自然语言处理领域。

革命性突破

  • 自注意力机制 (Self-Attention): 让模型在处理句子中某个词时,动态分析并关联句子内所有其他词的语义关系。就像人在阅读时会结合上下文理解词义。
  • 多头注意力 (Multi-head Attention): 并行执行多个自注意力“头”,如同多台相机分别拍摄球场的不同区域,最后整合信息形成全面认知。
  • 并行处理优势: 克服了传统 RNN (循环神经网络) 只能顺序计算的低效问题,大幅提升了训练运算速度,使得处理海量数据成为可能。

架构工作流 (Encoder-Decoder)

1. 词嵌入 (Embedding)
将单词结合其位置信息,转换为计算机可理解的“词向量”(数学矩阵)。
2. 编码器 (Encoder)
通过多层自注意力层和前馈网络,提取全局上下文特征,生成一张“语义地图”。
3. 解码器 (Decoder)
结合编码地图,利用掩码(Mask)机制防止“作弊”偷看未来词汇,一步步自回归预测生成目标内容。
BERT
Google (2018)

双向上下文编码。革命性地通过 MLM (掩码语言模型,随机挖空预测) 和 NSP (下一句预测) 提升了深层语义理解能力。

GPT 系列
OpenAI

纯解码器架构。采用自回归预测(单向预测下一个词)。GPT-3达1750亿参数,GPT-4支持跨模态,掀起生成式AI狂潮。

DeepSeek
深度求索 (国产)

中国自主研发。集成超百万级参数的混合专家系统 (MoE),基于稀疏激活机制按需调用专家节点,实现极高性价比与推理能力。

文心 & 盘古
百度 & 华为 (国产)

文心:产业级知识增强大模型,生态协同;
盘古:华为打造,深耕矿产、气象、铁路等垂直工业领域。