聚云动媒 首页 资讯 热点资讯 查看内容

DeepSeek下一代大模型引期待,深度求索GRM模型开源暂无时间表

2025-4-7 09:56| 发布者: 晓芸| 查看: 255| 评论: 0

摘要: DeepSeek-GRM模型优于现有方法,凭借强大的公共奖励模型“取得了有竞争力的表现”。奖励建模是一个引导大型语言模型向人类偏好靠拢的过程。


4月7日据网上信息,随着公众等待中国人工智能初创公司深度求索(DeepSeek)发布其下一代模型,该公司推出了一种提高大型语言模型(LLM)推理能力的新方法。

近日发表的一篇论文显示,深度求索与清华大学的研究人员合作,开发了一种将“生成式奖励建模”(GRM)和“自我原则点评调优”相结合的技术。这种双重方法旨在使LLM能够更好、更快地回答一般查询问题。

研究人员写道,由此产生的DeepSeek-GRM模型优于现有方法,凭借强大的公共奖励模型“取得了有竞争力的表现”。奖励建模是一个引导大型语言模型向人类偏好靠拢的过程。

研究人员称,深度求索打算将GRM模型开源,但没有给出时间表。

与此同时,由于DeepSeek的V3基础模型和R1推理模型受到全球关注,人们对深度求索的下一步行动有着许多猜测。路透社此前报道说,DeepSeek-R2将很快发布。DeepSeek-R1的发布以其极具成本效益的性能震惊了全球科技界,其性能可与领先的模型相媲美。

深度求索一直对传闻中的R2发布守口如瓶。

总部位于杭州的深度求索上月升级了其V3模型(名为DeepSeek-V3-0324),称其提供了更强的推理能力、优化的前端网页开发,以及升级的中文写作能力。




最新评论