华泰证券:DeepSeek有望加速模型训练与CUDA解耦

32度域获悉,华泰证券研究认为,DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码,Triton的底层可调用CUDA,也可调用其他GPU语言。LLM的训练短期内虽未完全脱离CUDA生态,但DeepSeek NSA的推出使其初步呈现出与CUDA解耦的趋势,并为后续适配更多类型的算力芯片奠定基础。华泰证券认为,伴随海外算力的受限,针对国产算力的优化或将有持续进展,值得重视。

本内容为作者独立观点,不代表32度域立场。未经允许不得转载,授权事宜请联系 business@sentgon.com
如对本稿件有异议或投诉,请联系 lin@sentgon.com
👍喜欢有价值的内容,就在 32度域 扎堆
(0)

猜你喜欢

发表回复

登录后才能评论