chenweigao / systems notes

系统地理解 AI 系统与底层计算

把论文、源码、trace 和工程实践整理成可复用的系统知识。这里既是个人研究记录，也是一张持续生长的技术知识地图。

191 篇文章 · 聚焦推理系统、性能分析与底层体系结构

从这里开始

三条精选阅读路径

01 学习路线 LLM 推理工程 从 KV Cache、性能瓶颈与调度一路读到推理引擎。 02 系统地图 推理优化全栈 把模型、Kernel、Cache、Scheduler 与 Serving 串成一张图。 03 工程证据 Profiling → Simulation 从线上 trace 与指标证据，走到可校准的性能模型。

近期专题

5 篇 · 查看专题

Prefill、混合架构与推理 Kernel 从调度基础、chunked prefill 和混合模型结构，一路读到真实 trace 证据。

基础批处理与调度：推理服务的灵魂调度 Chunked Prefill 深入分析：调度、Chunk Size 与 Attention 形状机制 GDN 与 Chunked Prefill：为什么 prepare_chunk_indices 会出现在 trace 里 Trace Prefill Trace：Worker 供给、DSA/MLA 与 Chunked Prefill 对比 DeepSeek MLA：低秩 KV Cache 与推理效率

知识领域

最近研究

从 Profiling 到 Simulation：推理性能分析的证据链方法 AI 系统 7月11日 MoE 推理：Expert 并行、显存与调度机制 AI 系统 7月10日 Prefill Trace：Worker 供给、DSA/MLA 与 Chunked Prefill AI 系统 7月10日 GDN 与 Chunked Prefill：为什么 prepare_chunk_indices 会出现在 trace 里 AI 系统 7月9日 DeepSeek MLA：低秩 KV Cache 与推理效率 AI 系统 7月6日 Chunked Prefill 深入分析：调度、Chunk Size 与 Attention 形状 AI 系统 7月2日