Skip to content
Go back

大模型算法工程师专精知识清单

Edit page

大模型专精知识清单(Markdown 速查版)

面向“已学完 DL 核心,想深耕 10B+ 参数预训练/微调/部署”的算法工程师
“数据→模型→训练→优化→对齐→部署→评测→安全” 8 条链路组织,
每条给出 理论要点 + 代码/工具 + 学习资源 + 验证里程碑


1 数据工程(Data-Centric)

主题必须掌握工具/代码验证里程碑
高质量去重MinHash LSH、URL 归一化、n-gram 去重datasketch + pyspark在 CommonCrawl 子集上把 重复率降到 < 5 %
毒性/偏置过滤Detoxify、Perspective API、Llama-Guardtransformers 加载分类器PII 识别召回 > 95 %,毒性样本比例下降 10×
数据配比cosine similarity 聚类→领域权重重采样sentence-transformers继续预训练 1 B 模型,perplexity ↓ 8 %
词表/分词BPE vs BBPE vs Unigram、SentencePiece 算法sentencepiece 训练30 GB 中文语料,vocab 32k → 压缩率 0.73

资源:


2 模型架构(Modeling)

模块理论要点代码/实现
旋转位置编码RoPE 复数指数形式,远程衰减系数 θtransformersapply_rotary_pos_emb
GLU 变体SwiGLU、GeGLU 激活,参数量 ↑ 1.5× 但性能 ↑Llama-2 FFN silu(gate) * up
并行化Tensor Parallel (TP)、Pipeline Parallel (PP)、Sequence Paralleltorch.distributed.tensor.parallel
稀疏化MoE Top-K 路由、负载均衡 loss aux_loss = α * load^2fairseq-moe / Megatron-LM

验证项目:


3 预训练(Training at Scale)

主题关键公式/参数工具
混合精度torch.cuda.amp + bfloat16,动态损失缩放Megatron-Core
梯度累积accumulate_steps = global_batch / (gpu_batch * gpu_num)DeepSpeed Stage-2
学习率调度WSD (Warmup-Stable-Decay) 阶段比例 1:8:1transformers.get_linear_schedule_with_warmup
分布式日志TensorBoard + W&B,记录 flops, tflops/gpu, loss_scalewandb.log({"tflops": tflops})

里程碑:


4 显存与吞吐优化(Efficiency)

技术显存节省代码入口
ZeRO-3deepspeed.zero.Init()
FlashAttention-22–4× 序列长度线性from flash_attn import flash_attn_func
激活重算1.5× 换 30 % 计算checkpoint_sequential
CPU Offload无限 offload,速度 ↓ 20 %device_map="auto" + accelerate

验证:


5 对齐(Alignment)

算法核心思想实现
RLHFPPO 三模型(actor/ref/reward),KL 惩罚 β=0.1trlx / openai/lm-human-preferences
DPO直接偏好优化,无需 reward 模型transformers.DPOTrainer
RLAIF用 LLM 代替人类标注偏好Google RLAIF paper 代码
安全对齐Constitutional AI、红队对抗llamaguard 生成对抗 prompt

里程碑:


6 部署与推理(Serving)

方案延迟 (7B, 2048 in/128 out)工具
HuggingFace1100 mspipeline
vLLM45 msvllm --model llama-7b --tensor-parallel-size 2
TensorRT-LLM38 mstrtllm-build
量化 INT8显存 ↓ 2×,精度 ↓ < 1 %bitsandbytes / AWQ

任务:


7 评测与基准(Evaluation)

维度数据集指标
知识MMLU、C-Eval5-shot accuracy
推理GSM8K、MATHpass@1 / maj@8
代码HumanEval、MBPPpass@1
长文本“Needle in Haystack”检索准确率 vs 长度

自动化:

pip install lm-eval-harness
lm_eval --model hf --model_args pretrained=llama-7b --tasks mmlu,gsm8k --batch_size 16

8 安全与合规(Safety & Governance)


学习路径速览(按周)

主题产出
1–2数据工程 + 词表30 GB 清洗脚本 + 32k SPM 模型
3–4架构 + 并行手撸 1 B LLaMA + 8 卡 TP/PP
5–6预训练 + 优化继续预训练 loss ↓ 0.35
7显存优化ZeRO-3 + FlashAttn 单卡可训 7 B
8对齐DPO 50k 偏好对,Win-rate ↑ 18 %
9部署vLLM INT8 部署,首 token < 100 ms
10评测 + 安全MMLU 5-shot 55 → 63,红队攻击 ↓ 21 %

资源汇总(一键收藏)


把以上 8 条链路 全部跑通一次,你就拥有 “端到端大模型落地” 的完整闭环,
可胜任 大模型预训练/微调/部署/对齐 的全栈算法岗位。祝训练顺利,显存常够用!

数学理论

大模型方向需补充的数学基础(Markdown 速查)

已掌握“DL 通用数学”(高数/线代/概率/优化)后,专精大模型仍需补的 增量数学点
“够用→推导→发明” 三级标注,方便按需投入时间。


1 随机过程 & 大数定律(Scaling Law 核心)

概念大模型场景推荐深度
次高斯/次指数随机变量证明“训练损失→期望损失”的集中不等式够用:知道 Hoeffding/Bernstein 形式
鞅差序列 & Azuma分析 Adam 误差界的论文随处可见推导:会抄证明
Scaling Law 纸面推导L(α, β, γ) = α·N^β + γ·D^δ 拟合发明:能改形式(多模态、MoE)

资源:


2 矩阵分析(并行/低秩/量化)

工具用途掌握层级
Singular Value Perturbation解释“大模型低秩微调”为何有效推导:Weyl 不等式 + Davis-Kahan
Matrix Bernstein压缩通信时量化误差界够用:会套定理
Kronecker 积 & 向量化TP/PP 梯度合并的符号推导推导:‖A⊗B‖ = ‖A‖·‖B‖
随机矩阵谱密度研究“特征值长尾”与过度参数化发明:Marchenko-Pastur 分布改缩放

代码验证:

import numpy as np
A = np.random.randn(2048, 2048) / np.sqrt(2048)
eigs = np.linalg.svd(A)[1]
print("最大奇异值≈2.0?", eigs[0])

3 信息论(损失函数、对齐、压缩)

概念大模型应用需掌握公式
KL(q‖p) & 反向 KLRLHF 的 KL 惩罚项 β·KL(πθ‖πref)会求导:∇θ KL = 𝔼[∇θ log π]
Mutual Information I(X;Z)衡量 prompt 与 hidden state 的“可解释位”够用:I ≤ H
Rate–Distortion-Parameter量化位数 vs 任务掉点理论下界发明:改写 R(D, θ)
Minimal Description Length解释“参数量大但泛化好”推导:L = −log p(D

资源:


4 随机优化与收敛理论(AdamW、LR Scheduler)

算法需补的数学推荐深度
Adam 偏差修正β₁^t, β₂^t 的期望偏差项推导:会还原 Kingma 原始论文附录
LAMB / LARS 层级自适应‖θ_l‖ / ‖g_l‖ 的层归一化够用:知道层级学习率
Warmup-Stable-Decay (WSD)分段常数 → 指数 decay 的收敛界发明:能给新 scheduler 写 Lyapunov 证明
梯度噪声尺度 GNS确定 batch size 的“临界值”推导:Tr(G)/‖g‖²

实验脚本:

pip install transformers[torch] optimi
python -m optimi.gns wandb llama-7b 2048

5 测度论 & 泛函分析(可选,做理论/发明)

场景工具投入建议
Transformer 是积分算子的离散化核空间 L²(μ) → 注意力算子纯理论方向再学
Wasserstein 梯度流解释“粒子视角”的 SGD同上
Reproducing Kernel Hilbert SpaceNeural Tangent Kernel 极限同上

若目标 工业落地,可跳过;若投 ICML/NeurIPS 理论 Track,建议学:
书:A Course in Functional Analysis(Conway)第 1–3 章


6 增量数学 → 代码对照表

数学结论对应代码/日志可见现象
Matrix Bernstein 界量化后 ‖W_q − W‖₂ ≤ ε下游任务掉点 < 1 %
Azuma 不等式Adam 梯度界loss 曲线 95 % 带内
KL(πθ‖πref) ≤ βkl_div = (logprobs - ref_logprobs).mean()RLHF 不“崩”
Scaling Law 预测python fit_scaling_law.py --N 7e9 --D 1.2e12预测 loss 2.01 vs 实测 2.03

7 20-小时“快充”计划(边上班边学)

周次内容小时产出
第 1 周随机过程 Scaling Law 推导5复现 OpenAI 附录 B
第 2 周矩阵 Bernstein + 量化误差实验5写 notebook 给团队分享
第 3 周信息论 KL & RLHF 推导5推导出 DPO 目标函数
第 4 周Adam 收敛界 + 实验验证5画出 GNS-Batch Size 曲线

结论

  1. 工业落地:补 1–4 够用 → 能读懂 paper、调超参、写证明级 blog;
  2. 研究/发明:补 5 泛函 + 随机矩阵 → 发 ICML/NeurIPS 理论 Track;
  3. 验证标准:随手给同事讲清“KL 惩罚为什么 β=0.1”且 5 分钟写完推导,即达标。祝你数学愉快,显存和公式都收敛!

Edit page
Share this post on:

Previous Post
人工智能算法工程师学习路线图
Next Post
Obsidian官方功能介绍速览