CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
ByteDance Seed + Tsinghua AIR (SIA-Lab),2026
cuda-agent.github.io
写快 GPU kernel 是真正意义上的难。你需要理解内存层次、warp 调度、bank conflict、tensor core 布局,以及大约五十个在不同 GPU 代际之间会变化的微架构细节。大多数工程师——包括大多数 ML 工程师——没有这种知识。他们用库(cuBLAS、cuDNN、FlashAttention),然后祈祷一切都好。
大约 6 分钟
