LLM 推理优化学习路线

2026年3月13日 · 约 3 分钟阅读

学习路线总览

基于你已经掌握 prefill/decode/forward 流程的基础，按以下顺序学习：

① KV Cache          → ② 性能瓶颈分析    → ③ 量化
   (内存命根子)         (Compute/Memory)     (INT4/INT8/FP8)
        │                    │                    │
        └────────────────────┼────────────────────┘
                             ↓
④ 批处理与调度       → ⑤ 投机解码        → ⑥ 推理引擎
   (Continuous Batch)    (Speculative)       (vLLM 源码)

文件索引

序号	文件	核心内容
00.5	Token Flow 与 Hidden State	用 hidden state 串起 Attention、MoE、LM Head 和 Sampling
01	KV Cache	内存计算公式、MHA/GQA、PagedAttention、长文本策略
01.2	DeepSeek MLA	低秩 KV 联合压缩、RoPE 解耦、矩阵吸收、serving cache layout
01.5	Causal Attention 与 KV hit 面积模型	用下三角 attention 区域解释 `1-h²` 缩放
01.6	KV Cache Hit Ratio 修正模型	三张图解释 hit 后 attention/FFN/TTFT/TPM 缩放与统一修正公式
02	Compute vs Memory Bound	Roofline 模型、Prefill 算力瓶颈、Decode 带宽瓶颈
02.5	MoE 推理	Expert dispatch/combine、EP/TP/PP、单卡显存估算与 DeepEP
03	量化	数据格式、GPTQ/AWQ/GGUF 对比、分组量化
04	批处理与调度	静态/动态/连续批处理、Chunked Prefill、分离调度
04.5	Chunked Prefill 深入分析	chunk size、输入分桶、attention 形状、调度权衡与实验矩阵
04.6	GDN 与 Chunked Prefill	Qwen3Next/GDN、64-token kernel chunk、prepare_chunk_indices 与 GPU->CPU 同步
04.7	Prefill Trace 解读	Worker 供给、DSA/MLA、Queue Length、prefix cache 与 chunked prefill
05	投机解码	Draft-Verify 流程、EAGLE/Medusa、无损加速证明
05.5	DSpark 与 MTP	DeepSeek DSpark 半自回归草稿模型、置信度调度验证、DeepSpec 源码实现与 MTP-1 对比
06	推理引擎	vLLM/TRT-LLM/SGLang 架构、FlashAttention、并行策略
06.5	推理框架对比 2026	从 Engine 到 Serving Stack：P/D 分离、KV cache、MoE/EP、spec decode 与生产编排
Paper	DeepSeek-V3 Technical Report：中英对照解读	MLA、DeepSeekMoE、MTP、FP8、Prefill/Decode 分离部署

一句话路线图

KV Cache 显存计算 → Prefill/Decode 瓶颈 → 量化原理 → 动态批处理 → 投机解码 → 看 vLLM 源码

LLM 推理优化学习路线

学习路线总览

文件索引

一句话路线图

相关页面

目录 4