何恺明、Yann LeCun等改造Transformer,CVPR 2025已收录

0 67

近日,科技界迎来一项重大突破,何恺明教授与图灵奖得主Yann LeCun携手,提出了一种创新的“无需归一化的Transformer”模型,此成果已被CVPR 2025大会收录。该研究独辟蹊径,以动态双曲正切函数(DyT)替代了传统Transformer模型中的归一化层,不仅未减性能,反在某些方面有所提升。

何恺明、Yann LeCun等改造Transformer,CVPR 2025已收录插图

Transformer模型,自2017年由Ashish Vaswani等人提出以来,以其基于注意力机制的深度学习架构,在自然语言处理等领域大放异彩,为GPT等大型AI模型的出现铺平了道路。何恺明与LeCun的此次创新,挑战了归一化层在神经网络中的传统地位,展现了深度学习领域的无限可能。

研究表明,DyT的应用使得无需归一化的Transformer模型在多种场景下均展现出与标准化模型相媲美甚至更优的性能。此举不仅简化了模型结构,还有望降低模型训练与推理所需的计算资源,从而减轻行业成本。

值得一提的是,此研究团队汇聚了多位华人学者的智慧,体现了中国在AI领域的人才崛起。论文的发表,不仅是对计算机视觉和模式识别领域的贡献,也是对全球AI研究的重要推动。

目前,该团队已在GitHub上开源了完整代码库,供全球开发者测试与研究。这一创新成果的公布,无疑将为AI领域带来新的启示和变革。

抢域名

也许您对下面的内容还感兴趣:

暂无相关推荐!

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
你必须 登录 才能发表评论.