梁文鋒和楊植麟,第四次撞車
技術路線多次「撞車」
這已是2025年以來的第4次,DeepSeek創始人梁文鋒與月之暗面創始人楊植麟在技術路線上精準「撞車」。兩者不僅在模型發布上頻繁交鋒,更在關鍵技術論文發表上同時提出創新,引發業界關注。
論文主題聚焦視覺理解與注意力機制
2月18日,兩者幾乎同時發布論文,主題皆針對Transformer架構最核心的注意力機制,試圖讓模型更高效地處理長文本與複雜情境。梁文鋒所參與的NSA(New Self-Attention)與楊植麟所提出的MoBA(Multi-Objective Block Attention)架構,皆試圖突破傳統注意力機制的限制。
其中,MoBA架構將MoE(專家混合)應用於注意力機制,透過「less structure」原則,讓模型自主決定關注哪些區域或位置,強化長上下文處理能力。
技術發展延續至專用模型
繼論文「撞車」後,雙方持續擴展應用範疇。4月30日,DeepSeek推出專門用於數學定理證明的模型DeepSeek-Prover-V2,顯示其技術路線已從通用大模型延伸至垂直領域。
