AWP Profiling API
AWP 性能分析平台的 REST API 文档:异步提交 GPU/CPU profiling 任务并查询分析结果
共 199 篇文章 · 按发布时间倒序
AWP 性能分析平台的 REST API 文档:异步提交 GPU/CPU profiling 任务并查询分析结果
FP4/FP8 量化格式对比、FP4 存储 + FP8 计算机制、B200 vs H100 硬件差异、Scale metadata 策略
2026 年主流 LLM 推理框架的核心优化、并行策略、量化支持与 MoE 能力对比
DeepSeek-V4 的 CSA(压缩稀疏注意力)和 HCA(高压缩注意力)机制、压缩比、Indexer、异构 KV cache 及百万上下文建模
MoE 推理中的 expert 本质、dispatch/combine 流程、EP/TP/DP 切分策略、expert 常驻 vs offload、DeepEP 工程实践
LLM 推理模拟器建模的完整公式集:weights/KV/activation 显存计算、MoE workspace、FP4 capability matrix、MTP overhead、per-rank vs global 区分
基于 GPUMon kernel timeline trace 的三大推理框架(FT/rtp-llm、VLLM、SGLang)性能瓶颈模式对比分析
10 个 H20 GPU profile 的批量归因分析,全部不健康(compute% 中位数 2.5%),公共根因为 cudaMemcpyAsync + cudaStreamSynchronize 阻塞
单个 AMD MI308X profile 的性能分析:kernel_launch_bound 占 55.4%,compute 仅 10.1%,GPU 大部分时间在等待 kernel 下发
一份可一键复刻的 Zsh / Oh-My-Zsh 配置:插件、主题、别名与跨机迁移脚本。
分布式训练技术与大规模模型训练的并行策略
Mermaid 图表插件功能测试页面
深度学习训练框架与内存优化技术索引
深度优先搜索与广度优先搜索的原理及应用
动态规划基础:斐波那契、记忆化搜索与状态转移
前缀和算法原理与经典例题汇总
滑动窗口与双指针技巧及例题
排序算法与 Python 自定义排序技巧
云服务器、容器化与 DevOps 实践
常用开发框架与库的分类导航
数据库技术:SQL、NoSQL 与数据管理
前端开发技术、框架与最佳实践
网络协议、Web 通信与分布式系统概览
Markdown 中图片尺寸控制的特殊语法说明
开发工具与实用工具集合索引
VPS 服务器配置 Shadowsocks 代理教程
Python 编程从基础到高级主题的综合指南
Java 编程语言、JVM 与 Android 开发文档索引
HPCA14 论文解读:上下文相关的 Load Value 预测器
卷积神经网络基础:Filter、Padding 与 Stride 操作
CVPR 无边界框目标检测论文笔记
Effective Python 编程技巧与最佳实践
Python logging 模块使用与日志级别配置
pip 镜像源配置与包管理技巧
Python 数据结构:切片、列表与元组操作
Pytest 与 Unittest 测试框架使用指南
Python 高阶函数与字符串处理技巧
Python 与 C/C++ 混合编程方法
IPython、timeit 等 Python 开发辅助工具
Linux 内核、系统管理与高级主题索引
C 语言指针的定义、用法与常见陷阱
C/C++ 中 size_t 类型的定义、原理与使用场景
Makefile 规则语法与编写实践
CMake 构建系统的核心概念与常用配置
涵盖计算机科学与软件工程的个人知识库
按时间顺序浏览所有文章和学习笔记
论文总结 - Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads
从 HBM 带宽到调度算法,把 KV Cache、量化、连续批处理、投机解码、推理引擎与 GPU 通信编织成一张全栈优化地图
Agentic Infra 推理优化方法论摘要:两阶段性能本质、六大根因分类、AWP 两层八能力诊断体系、六层优化方案与业界实战案例
Agentic AWP 平台建设文档摘要:六维 Breakdown 框架(D1-D6)与 L0-L3 四级能力体系,回答'GPU 时间到底花在了哪里'
Java 设计模式分类与总览
2019 新年目标规划与学习方向记录
编程与生活的日常随笔感悟集
2018 年日常开发与调试工作日志
GPU 流式多处理器 SM 内部结构示意图
常见数据结构概念与应用索引
Comprehensive documentation covering CPU architecture, GPU computing, and ARM systems
从新手视角梳理 AI 推理的核心概念:推理与记忆的区别、思维链、reasoning model、RAG、memory、fine-tuning、distillation,以及推理能力和 agent 能力的关系。
从新手视角解释 AI 推理的基本概念:推理和记忆的区别、token 生成与推理的关系、演绎归纳溯因,以及什么样的问题真正考验推理。
reasoning model 和普通模型有什么区别?为什么模型知道很多却一推就错?为什么接上工具后小模型短任务聪明、长任务却容易崩?
梳理 RAG、memory、session summary、fine-tuning、post-training、distillation 的区别,以及什么时候该用什么方案。
AI 推理系列文章总览,从基础概念到 reasoning model、Agent、RAG、fine-tuning 与蒸馏,按主题持续迭代。
对 AWP 平台规模化 Profiling 驱动的 GPU 效率六维 Breakdown 框架与四级能力体系的摘要
对 LLM 推理性能优化全链路方法论的摘要,覆盖根因诊断、AWP Profiling 定位、六层优化方案与业界案例
详解 GPU 性能分析中的区间合并、扫描线算法原理,以及 Temporal Breakdown 和 Overlap Analysis 两个核心分析模块的计算逻辑
OpenClaw 自托管 AI 网关的完整学习笔记,涵盖架构协议、配置详解、聊天通道、工具系统、Skills 技能、会话管理、多代理路由、插件系统、模型安全、CLI 速查,以及 AWP Task DAG 与 learn-claude-code 的深度对比分析
论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统,让 LLM 学会自主编写和优化 CUDA kernel,在 KernelBench 上全面超越 torch.compile 和顶级闭源模型
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
理解投机解码的原理、为什么能保证输出质量不变、主流变体(Draft Model / EAGLE / Medusa)对比
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
C++ 采样分析中 DWARF 栈回溯与 eBPF 技术实现
GPU trace 中计算/通信/空闲时间的分解分析方法
深入分析 Holistic Trace Analysis (HTA) 的核心算法原理、数据结构设计和关键实现细节。
视频质量过滤系统的多 GPU 分布式推理流水线架构
NVIDIA NVTX 标注库的注入机制与运行时交互原理
GPU kernel trace/timeline 的关键路径算法原理、业界工具实践(HTA / NCU / NSYS)及实现思路。
MMU 页表遍历单元的硬件结构与地址转换流程
论文精读 — SAC 通过动态重配置 LLC 路由策略,根据跨芯片数据共享特征在 memory-side 和 SM-side LLC 组织方式间切换,在多芯片 GPU 上实现平均 63% 的性能提升
NVLink、NVSwitch 与 GPU 间高速互连通信技术
x86 指令类型分类、占比分析与高频指令解读
POSIX 线程条件变量与超时等待机制详解
Linux 透明大页机制与 Hugepages 内存优化
CPU 缓存原理、映射策略、替换算法与一致性协议
系统性解析现代GPU架构设计原理,涵盖SIMT执行模型、SM微架构、内存层次结构及线程调度机制
ART 虚拟机创建过程与 JNI_CreateJavaVM 流程
dex2oat 编译触发时机与 oat 文件结构分析
ART 中 JNI 原理、native 函数注册与调用流程
ART/Dalvik 虚拟机栈与寄存器架构对比分析
栈式与寄存器虚拟机对比及 ART/Dalvik 设计杂谈
Value Prediction 经典论文解读与投机执行分类
ARM 汇编指令集速查表与指令格式说明
链接器与加载器原理:ELF 文件格式与目标文件结构
Thermal 模块初始化流程与 DTS 解析过程
二叉树遍历的递归与迭代实现及例题解析
Linux init.h 中 initcall 机制与模块加载顺序
Linux Thermal 框架的 Zone、Governor 与 Cool Device 架构
MIT xv6 教学操作系统的 RISC-V 架构与寄存器基础
Spring 框架核心特性:IoC 与 AOP
Node.js 与 npm/yarn 的安装配置指南
MySQL 基础操作、索引与存储引擎
Python ORM 框架 Peewee 使用指南
二分搜索模板与区间开合分析
YOLO 目标检测算法原理与人脸识别应用
最长公共子串与最长公共子序列算法
栈的应用:括号匹配与递归问题求解
Redis 服务与 redis-py 客户端使用
字符串操作与常见算法题目总结