最近更新
最新发布和更新的文章
AWP 六维 Breakdown 框架与能力体系摘要
对 AWP 平台规模化 Profiling 驱动的 GPU 效率六维 Breakdown 框架与四级能力体系的摘要
AI 系统
LLM 推理性能优化与 GPU 利用率提升摘要
对 LLM 推理性能优化全链路方法论的摘要,覆盖根因诊断、AWP Profiling 定位、六层优化方案与业界案例
AI 系统
GPU Trace 时间分解与通信计算重叠分析
详解 GPU 性能分析中的区间合并、扫描线算法原理,以及 Temporal Breakdown 和 Overlap Analysis 两个核心分析模块的计算逻辑
AI 系统
OpenClaw 完全指南:从入门到多代理架构
OpenClaw 自托管 AI 网关的完整学习笔记,涵盖架构协议、配置详解、聊天通道、工具系统、Skills 技能、会话管理、多代理路由、插件系统、模型安全、CLI 速查,以及 AWP Task DAG 与 learn-claude-code 的深度对比分析
AI 系统
CUDA Agent
论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统,让 LLM 学会自主编写和优化 CUDA kernel,在 KernelBench 上全面超越 torch.compile 和顶级闭源模型
AI 系统
KV Cache:推理性能的命根子
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
AI 系统