岗位职责:
1.算子开发与优化:针对大模型(以Transformer架构为主,包括稠密及MoE模型)的核心计算模块(如Attention、MLP/FFN、专家路由、RotaryEmbedding等),设计并实现面向AMDCPU的高性能定制算子。
2.推理引擎深度优化:深度参与或主导公司内部推理引擎在AMDCPU平台上的性能优化工作,包括计算内核重写、内存子系统优化、针对MoE等稀疏激活模型的负载均衡与调度优化、多线程与NUMA调度优化等。
3.底层指令集优化:精通使用AMD平台的低延迟编程技术,包括利用AVX2/AVX-512等SIMD指令集进行手工向量化,以及针对Zen架构进行微架构级别的性能调优。
4.性能分析与瓶颈定位:熟练使用性能剖析工具(如perf,AMDuProf,VTune等)进行全栈性能分析,精准定位从算法到硬件指令级别的瓶颈,并提出有效的优化方案。
5.技术预研与落地:持续跟踪业界先进的CPU推理加速技术(如新量化方案、算子融合策略、MoE模型高效推理、先进指令集应用等),并负责其技术验证与产品化落地。
6.协作与集成:与算法团队及框架团队紧密协作,将优化成果高效集成至公司的推理服务中,并编写清晰的核心技术文档。
任职要求:
1.计算机科学、电子工程或相关专业本科及以上学历,3年以上高性能计算、深度学习推理优化或底层计算库开发经验。
2.拥有在AMDCPU平台上进行算子开发或深度性能优化的实际项目经验。
3.精通C/C++语言,具备出色的系统编程能力、内存管理及调试技能。
4.扎实的CPU体系结构知识,尤其是对AMDZen微架构有深入理解。
5.拥有底层CPU算子的开发经验:熟练掌握使用x86intrinsics(如SSE,AVX2,AVX-512)进行手工向量化编程;精通多线程优化(如OpenMP,pthreads)及缓存友好型代码设计。
6.熟悉Transformer类模型的基本计算流程与性能热点。
7.熟悉常见的模型量化技术(如INT8,INT4)及其在CPU上的实现原理。