第7章大模型 - 大学计算机与人工智能基础

7.1 大模型概述

1. 理解大模型的四大基石

要理解大模型，首先要搞懂四个贯穿始终的核心概念：算法、模型、训练与推理。

算法 (Algorithm)

解题方法：明确的步骤或规则（类比解方程步骤）。它是指导模型学习、提取数据特征的基石。

模型 (Model)

学到的知识：由算法学习数据后获得的具体能力。本质是描述数据间关系或规律的网络结构。

训练 (Training)

学习过程：输入海量数据，计算误差并通过反向传播不断调整参数，直到掌握规律。目标是获得泛化能力。

推理 (Inference)

应用阶段：训练完成后参数固定。接收新输入数据，根据已学到的规律生成预测或决策结果。

2. 什么是大模型？

大模型是指参数规模宏大（百亿至万亿级）的深度学习模型。它具有海量参数、强大的数据处理与学习能力，以及卓越的泛化能力（举一反三）。

大模型的工作流程分为两个关键阶段：

预训练 (Pre-training)：在海量数据上进行自监督学习，构建“通用知识库”。（就像让AI吃遍全网文本，玩“词语填空”游戏）
微调 (Fine-tuning)：给AI上“专业课”，用特定领域的标注数据进行精细化调整，提升特定任务表现。

大模型分类

大语言模型 (LLM)

专精自然语言，如 GPT 系列、DeepSeek、文心一言。
大视觉模型 (LVM)

处理图像分析，如 ViT、Sora、Stable Diffusion。
多模态大模型 (MLLM)

图文声视融合，如 GPT-4o、Gemini。

7.2 大模型提示词 (Prompt Engineering)

提示词（Prompt）是用户与 AI 交互的核心媒介，本质上是在为模型建立特定的上下文环境。设计良好的提示词是让 AI 高效工作的关键魔法。

🪄 提示词设计的核心公式 (四大组成要素)

1. 核心指令

明确“要做什么”。用准确的动词，如：分析、撰写、总结、翻译。

2. 背景信息

划定“创作范围”。提供时间、空间、角色视角（如：假设你是架构师）。

3. 输出规范

定义“呈现形式”。如：使用表格展示、用Markdown格式、限制200字内。

4. 修饰条件

添加“个性调料”。如：语气幽默、通俗易懂、不使用专业术语。

提示词避坑指南与优化对比

❌ 错误/基础提示词	🔍 问题分析	✅ 优化后的进阶提示词
“分析《红楼梦》”	目标模糊，无结构要求	“分三步分析贾宝玉的人物形象：1. 列举3个典型情节(注明回目)；2. 从每个情节提取2个性格特征；3. 用表格对比少年期与成年期的性格变化。”
“解释量子力学”	专业度与受众不匹配	“用‘打篮球传球’的比喻向初中生解释量子纠缠现象，避免使用数学公式，字数控制在200字以内。”
“修改我的作文”	未指定改进方向	“请从以下角度修改作文：1. 将长句拆分为短句(标记修改处)；2. 添加2处环境描写；3. 删除重复论证段落。”

思维链推演 (Chain of Thought, CoT)

在解决复杂数学或逻辑问题时，通过要求 AI “分步思考”来提高准确率。

"请分步骤解答以下微积分问题，并在每一步用括号标注使用的定理：
(1) 首先判断函数连续性；
(2) 计算左右极限；
(3) 应用洛必达法则..."

多模态协同与代码生成

利用提示词让 AI 协调不同形式的数据输出（如生成图表代码、游戏代码）。

"请根据《红楼梦》的情节内容，提炼出其中的人物关系，并以思维导图的方式展示，同时附上相应的 Mermaid 代码。"

7.3 重要的大模型架构

Transformer 模型 (大模型的绝对基石)

2017年由 Google 团队提出，彻底颠覆了自然语言处理领域。

革命性突破

自注意力机制 (Self-Attention)： 让模型在处理句子中某个词时，动态分析并关联句子内所有其他词的语义关系。就像人在阅读时会结合上下文理解词义。
多头注意力 (Multi-head Attention)： 并行执行多个自注意力“头”，如同多台相机分别拍摄球场的不同区域，最后整合信息形成全面认知。
并行处理优势： 克服了传统 RNN (循环神经网络) 只能顺序计算的低效问题，大幅提升了训练运算速度，使得处理海量数据成为可能。

架构工作流 (Encoder-Decoder)

1. 词嵌入 (Embedding)

将单词结合其位置信息，转换为计算机可理解的“词向量”（数学矩阵）。

2. 编码器 (Encoder)

通过多层自注意力层和前馈网络，提取全局上下文特征，生成一张“语义地图”。

3. 解码器 (Decoder)

结合编码地图，利用掩码(Mask)机制防止“作弊”偷看未来词汇，一步步自回归预测生成目标内容。

BERT

Google (2018)

双向上下文编码。革命性地通过 MLM (掩码语言模型，随机挖空预测) 和 NSP (下一句预测) 提升了深层语义理解能力。

GPT 系列

OpenAI

纯解码器架构。采用自回归预测（单向预测下一个词）。GPT-3达1750亿参数，GPT-4支持跨模态，掀起生成式AI狂潮。

DeepSeek

深度求索 (国产)

中国自主研发。集成超百万级参数的混合专家系统 (MoE)，基于稀疏激活机制按需调用专家节点，实现极高性价比与推理能力。

文心 & 盘古

百度 & 华为 (国产)

文心：产业级知识增强大模型，生态协同；
盘古：华为打造，深耕矿产、气象、铁路等垂直工业领域。