大模型 (Large Models)
从 ChatGPT 到 DeepSeek,大模型正以摧枯拉朽之势重塑我们的世界。本章我们将揭开大模型神秘的面纱,从底层的算法与训练逻辑,到驾驭 AI 的“魔法咒语”——提示词工程,再到深入解析 Transformer 等颠覆性技术架构。
7.1 大模型概述
1. 理解大模型的四大基石
要理解大模型,首先要搞懂四个贯穿始终的核心概念:算法、模型、训练与推理。
算法 (Algorithm)
解题方法:明确的步骤或规则(类比解方程步骤)。它是指导模型学习、提取数据特征的基石。
模型 (Model)
学到的知识:由算法学习数据后获得的具体能力。本质是描述数据间关系或规律的网络结构。
训练 (Training)
学习过程:输入海量数据,计算误差并通过反向传播不断调整参数,直到掌握规律。目标是获得泛化能力。
推理 (Inference)
应用阶段:训练完成后参数固定。接收新输入数据,根据已学到的规律生成预测或决策结果。
2. 什么是大模型?
大模型是指参数规模宏大(百亿至万亿级)的深度学习模型。它具有海量参数、强大的数据处理与学习能力,以及卓越的泛化能力(举一反三)。
大模型的工作流程分为两个关键阶段:
- 预训练 (Pre-training):在海量数据上进行自监督学习,构建“通用知识库”。(就像让AI吃遍全网文本,玩“词语填空”游戏)
- 微调 (Fine-tuning):给AI上“专业课”,用特定领域的标注数据进行精细化调整,提升特定任务表现。
大模型分类
-
大语言模型 (LLM)专精自然语言,如 GPT 系列、DeepSeek、文心一言。
-
大视觉模型 (LVM)处理图像分析,如 ViT、Sora、Stable Diffusion。
-
多模态大模型 (MLLM)图文声视融合,如 GPT-4o、Gemini。
7.2 大模型提示词 (Prompt Engineering)
提示词(Prompt)是用户与 AI 交互的核心媒介,本质上是在为模型建立特定的上下文环境。设计良好的提示词是让 AI 高效工作的关键魔法。
🪄 提示词设计的核心公式 (四大组成要素)
1. 核心指令
明确“要做什么”。用准确的动词,如:分析、撰写、总结、翻译。
2. 背景信息
划定“创作范围”。提供时间、空间、角色视角(如:假设你是架构师)。
3. 输出规范
定义“呈现形式”。如:使用表格展示、用Markdown格式、限制200字内。
4. 修饰条件
添加“个性调料”。如:语气幽默、通俗易懂、不使用专业术语。
提示词避坑指南与优化对比
| ❌ 错误/基础提示词 | 🔍 问题分析 | ✅ 优化后的进阶提示词 |
|---|---|---|
| “分析《红楼梦》” | 目标模糊,无结构要求 | “分三步分析贾宝玉的人物形象:1. 列举3个典型情节(注明回目);2. 从每个情节提取2个性格特征;3. 用表格对比少年期与成年期的性格变化。” |
| “解释量子力学” | 专业度与受众不匹配 | “用‘打篮球传球’的比喻向初中生解释量子纠缠现象,避免使用数学公式,字数控制在200字以内。” |
| “修改我的作文” | 未指定改进方向 | “请从以下角度修改作文:1. 将长句拆分为短句(标记修改处);2. 添加2处环境描写;3. 删除重复论证段落。” |
思维链推演 (Chain of Thought, CoT)
在解决复杂数学或逻辑问题时,通过要求 AI “分步思考”来提高准确率。
(1) 首先判断函数连续性;
(2) 计算左右极限;
(3) 应用洛必达法则..."
多模态协同与代码生成
利用提示词让 AI 协调不同形式的数据输出(如生成图表代码、游戏代码)。
7.3 重要的大模型架构
Transformer 模型 (大模型的绝对基石)
2017年由 Google 团队提出,彻底颠覆了自然语言处理领域。
革命性突破
- 自注意力机制 (Self-Attention): 让模型在处理句子中某个词时,动态分析并关联句子内所有其他词的语义关系。就像人在阅读时会结合上下文理解词义。
- 多头注意力 (Multi-head Attention): 并行执行多个自注意力“头”,如同多台相机分别拍摄球场的不同区域,最后整合信息形成全面认知。
- 并行处理优势: 克服了传统 RNN (循环神经网络) 只能顺序计算的低效问题,大幅提升了训练运算速度,使得处理海量数据成为可能。
架构工作流 (Encoder-Decoder)
双向上下文编码。革命性地通过 MLM (掩码语言模型,随机挖空预测) 和 NSP (下一句预测) 提升了深层语义理解能力。
纯解码器架构。采用自回归预测(单向预测下一个词)。GPT-3达1750亿参数,GPT-4支持跨模态,掀起生成式AI狂潮。
中国自主研发。集成超百万级参数的混合专家系统 (MoE),基于稀疏激活机制按需调用专家节点,实现极高性价比与推理能力。
文心:产业级知识增强大模型,生态协同;
盘古:华为打造,深耕矿产、气象、铁路等垂直工业领域。