时间线

共 191 篇文章 · 按发布时间倒序

本月发布

2026 年

总数

191

2026

七月

从 Profiling 到 Simulation：推理性能分析的证据链方法

把线上 profiling 证据和仿真假设验证组织到同一个推理性能分析框架里

7/11

AI 系统

MoE 推理：Expert 并行、显存与调度机制

MoE 推理中的 expert 本质、dispatch/combine 流程、EP/TP/PP 切分、单卡显存估算、expert 常驻与 DeepEP 工程实践

7/10

AI 系统

Prefill Trace：Worker 供给、DSA/MLA 与 Chunked Prefill

从 GLM-5.2 prefill trace 出发，解释 worker 供给等待、DSA/MLA/KV 数据路径、Queue Length，以及 prefix cache 与 chunked prefill 的先后关系。

7/10

AI 系统

GDN 与 Chunked Prefill：为什么 prepare_chunk_indices 会出现在 trace 里

用一张图解释 Qwen3Next/GDN 层、scheduler chunked prefill、GDN 64-token kernel chunk，以及 prepare_chunk_indices 触发 GPU->CPU 同步的原因

7/9

AI 系统

DeepSeek MLA：低秩 KV Cache 与推理效率

系统研究 DeepSeek MLA：低秩 KV 联合压缩、RoPE 解耦、矩阵吸收、KV cache 显存公式，以及对 serving / paged KV / prefix cache 的影响

7/6

AI 系统

Chunked Prefill 深入分析：调度、Chunk Size 与 Attention 形状

以论文式结构分析 chunked prefill：问题定义、调度方法、性能模型、源码路径、trace 证据、实验设计和 P/D 分离场景下的边界

7/2

AI 系统

推理框架对比 2026：从 Engine 到 Serving Stack

2026 年 LLM 推理框架的系统架构地图：Engine、Kernel、KV Cache、P/D 分离、MoE/EP、Speculative Decoding 与生产编排

7/1

AI 系统

六月

Token Flow 与 Hidden State：从 Attention 到 LM Head

用一次 decode step 串起 hidden state、Attention、MoE、LM Head 和 Sampling 的关系

6/30

AI 系统

DeepSeek-V3 Technical Report：中英对照解读

对 DeepSeek-V3 Technical Report 的中英对照导读：架构、MoE 负载均衡、MTP、FP8 训练、Prefill/Decode 部署和推理工程启发

6/29

AI 系统

DSpark 与 MTP：DeepSeek 投机解码调研

调研 DeepSeek DSpark 的半自回归草稿模型、置信度调度验证、DeepSpec 源码实现，并和 MTP-1 对比其工程边界

6/29

AI 系统

HTML 交互图测试

验证文章中嵌入 agent 生成的 HTML 交互图。

2026

七月

从 Profiling 到 Simulation：推理性能分析的证据链方法

MoE 推理：Expert 并行、显存与调度机制

Prefill Trace：Worker 供给、DSA/MLA 与 Chunked Prefill

GDN 与 Chunked Prefill：为什么 prepare_chunk_indices 会出现在 trace 里

DeepSeek MLA：低秩 KV Cache 与推理效率

Chunked Prefill 深入分析：调度、Chunk Size 与 Attention 形状

推理框架对比 2026：从 Engine 到 Serving Stack

六月

Token Flow 与 Hidden State：从 Attention 到 LM Head

DeepSeek-V3 Technical Report：中英对照解读

DSpark 与 MTP：DeepSeek 投机解码调研

HTML 交互图测试

Causal Attention：为什么 KV hit 后 Attention 按 1 - h² 缩放

KV Cache Hit Ratio 修正模型：从直觉到统一公式

AWP Profiling API

CSA/HCA 注意力：DeepSeek-V4 的混合压缩稀疏机制

FP4/FP8 量化：低精度推理的存储与计算

模拟器建模指南：显存与吞吐公式

FT vs VLLM vs SGLang 推理框架对比摘要

H20 批量归因分析报告摘要

AMD MI308X 单卡 Profile 分析摘要（kernel_launch_bound 主导）

五月

Zsh 一键复刻配置

DFS & DFS

DP

Prefix, Presum

Slide Window

Sort

C Pointer

Makefile

size_t

CMake

图片大小控制功能使用指南

VPS and Shadowsocks

VP - HPCA 14

CNN

CVPR Paper

Effective Python

logging

pip

Python Data Struct

Pytest

High-level Function

Python and C/C++

Python Tools

Gavel: Heterogeneity-Aware Cluster Scheduling (OSDI'20)

LLM 推理系统全栈综合分析

Agentic Infra：LLM 推理性能优化与 GPU 利用率提升

Agentic AWP：规模化 Profiling 驱动的 GPU 效率 Breakdown 与能力体系

设计模式

2019 新年感悟

日常感悟

2018 bug 日记

Data Struct

四月

02. Reasoning Model、Agent 与长任务

03. RAG、Memory、Fine-tuning 与 Distillation

01. 什么是 AI 推理

AWP 六维 Breakdown 框架与能力体系摘要

LLM 推理性能优化与 GPU 利用率提升摘要

GPU Trace 时间分解与通信计算重叠分析

三月

OpenClaw 完全指南：从入门到多代理架构

CUDA Agent

KV Cache：推理性能的命根子

Compute-bound vs Memory-bound：推理的两大瓶颈

量化：INT8 / INT4 / FP8 到底在干嘛

投机解码：突破 decode 一次只出一个 token 的限制

批处理与调度：推理服务的灵魂

推理引擎架构：vLLM / TensorRT-LLM / SGLang

Cprof C++ Profiling 核心技术

二月

Dynamic Batching 分析

一月

Temporal Breakdown 计算分析

HTA 算法原理与实现

stage2 analysis

NVTX 原理分析