LLM 推理优化学习路线
学习路线总览
基于你已经掌握 prefill/decode/forward 流程的基础,按以下顺序学习:
① KV Cache → ② 性能瓶颈分析 → ③ 量化
(内存命根子) (Compute/Memory) (INT4/INT8/FP8)
│ │ │
└────────────────────┼────────────────────┘
↓
④ 批处理与调度 → ⑤ 投机解码 → ⑥ 推理引擎
(Continuous Batch) (Speculative) (vLLM 源码)
文件索引
| 序号 | 文件 | 核心内容 |
|---|---|---|
| 01 | KV Cache | 内存计算公式、MHA/GQA、PagedAttention、长文本策略 |
| 02 | Compute vs Memory Bound | Roofline 模型、Prefill 算力瓶颈、Decode 带宽瓶颈 |
| 03 | 量化 | 数据格式、GPTQ/AWQ/GGUF 对比、分组量化 |
| 04 | 批处理与调度 | 静态/动态/连续批处理、Chunked Prefill、分离调度 |
| 05 | 投机解码 | Draft-Verify 流程、EAGLE/Medusa、无损加速证明 |
| 06 | 推理引擎 | vLLM/TRT-LLM/SGLang 架构、FlashAttention、并行策略 |
一句话路线图
KV Cache 显存计算 → Prefill/Decode 瓶颈 → 量化原理 → 动态批处理 → 投机解码 → 看 vLLM 源码
相关页面
- AWP 六维 Breakdown — 推理效率的诊断框架
- LLM 推理优化摘要 — 推理优化全链路方法论
- Agentic Infra:推理性能优化与 GPU 利用率提升 — 六大根因 / 八能力诊断 / 六层优化 / 业界实战案例
- GPU Architecture Deep Dive — 推理性能依赖的硬件前置
- Megatron & Parallel — 推理引擎依赖的并行原理
- AI 推理入门 — 推理能力(reasoning)相关阅读
修改历史
修改历史4 次提交
- fix(wiki): clean all lint errors to enable strict CI (PR-3)xiaocheng··
75375ef - docs(ai-systems): add comprehensive LLM inference documentationxiaocheng··
7c98505