最近更新
最新发布和更新的文章
LLM 推理优化学习路线
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
ai-systems
Compute-bound vs Memory-bound:推理的两大瓶颈
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
ai-systems
量化:INT8 / INT4 / FP8 到底在干嘛
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
ai-systems
批处理与调度:推理服务的灵魂
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
ai-systems
推理引擎架构:vLLM / TensorRT-LLM / SGLang
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
ai-systems
KV Cache:推理性能的命根子
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
ai-systems