400 128 6709

行业新闻

通义千问开源Qwen2-Math,成为最先进的数学专项模型

发布时间:2024-08-09点击次数:

8月9日消息,阿里通义团队开源新一代数学模型qwen2-math,包含1.5b、7b、72b三个参数的基础模型和指令微调模型。qwen2-math基于通义千问开源大语言模型qwen2研发,旗舰模型 qwen2-math-72b-instruct在权威测评集math上的得分超越gpt-4o、claude-3.5-sonnet、gemini-1.5-pro、llama-3.1-405b等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

通义千问开源qwen2-math,成为最先进的数学专项模型

注:在MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,超过GPT-4、Claude-3.5、Gemini-1.5-Pro和Llama-3.1等开闭源模型。

Qwen2-Math基础模型使用Qwen2大语言模型进行初始化,并在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由Qwen2模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。

随后,研发团队训练了指令微调版本模型:首先,基于Qwen2-Math-72B训练一个数学专用的奖励模型;接着,将密集的奖励信号与指示模型是否正确回答问题的二元信号结合,用作学习标签,再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用GRPO方法优化模型。

据悉,Qwen2-Math系列模型目前主要支持英文,通义团队很快就将推出中英双语版本,多语言版本也在开发中。

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了GSM8K和MATH等常见的测评基准,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2025赛题、美国数学竞赛(AMC)2025赛题,中文测评则有CMATH测评集、2025年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。

码上飞 码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

码上飞 430 查看详情 码上飞

通义千问开源Qwen2-Math,成为最先进的数学专项模型

注:研发团队在greedy和RM@8 的条件下对模型作了测评,表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果,分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分,8次回答中reward model所选答案的得分。

“大模型能不能做数学题”,不仅是社交平台的热门话题,也是业界非常关注的研究课题。处理高级数学问题,需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示,希望通过开源“为科学界解决高级数学问题做出贡献”,未来将持续增强模型数学能力。

附:Qwen2-Math解题示例

通义千问开源Qwen2-Math,成为最先进的数学专项模型

以上就是通义千问开源Qwen2-Math,成为最先进的数学专项模型的详细内容,更多请关注其它相关文章!


# 通义千问  # gemini  # claude  # 产业  # 南通网站建设效果好  # 天猫网站推广怎么做的好  # 昆明seo在线咨询公司  # 保定seo整站优化公司  # 延安网站建设服务  # 宜兴seo托管  # 温县网站关键词优化  # 百度推广链接解析网站  # 营销推广工具有什么特点  # 嘉定seo有哪些  # 大比拼  # 三季度  # 广州  # 美国  # 量产  # 数学模型  # 作了  # 丰田  # 最先进  # 开源  # llama  # qwen 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】  Adobe旗下Illustrator引入生成式AI工具Firefly  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  世界水下机器人大赛:9国青年携手逐梦深蓝  SnapFusion技术大幅提升AI图像生成速度  数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念  2025年的网络分区:人工智能和自动化如何改变事物  AI室内设计软件流行,室内设计行业如何应对效率变革  烟台大学学生首次在全国大学生无人机航拍竞赛中获奖  央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点  为什么很多人对纽约《人工智能招聘法》感到生气?  人工智能行业急缺人 AI人才年薪能达近42万元  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  微软向美国政府提供GPT的大模型,安全性如何保证?  值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  小艺将具备大模型能力,鸿蒙4加速AI普及之路  人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求  华为AI大模型将融入HarmonyOS 4  央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天  配 3D 机器人头像,谷歌展示全新安卓 LOGO  卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?  人工智能助力林草行业高质量发展  如何对员工进行再培训以充分利用供应链管理中的人工智能创新  人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势  Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务  李开复官宣新公司「零一万物」,进军 AI 2.0  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  人工智能正在弥合认知和表达之间的鸿沟  探索人工智能在物联网领域的影响与改变  物联网和人工智能的协同作用:释放预测性维护的潜力  昇腾AI大模型训推一体化解决方案将在WAIC发布  央广车联网亮相2025世界人工智能大会  煤电“三改联动”需多措联动  AI工具助力公司实施每周4.5天工作制,带来巨大效益  2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩  两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务  OpenAI高管:AI能创造新的就业机会 但也会淘汰一些  V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”  首个算网生态体!中国移动元宇宙产业联盟正式成立  解决导航“最后50米”难题 高德地图升级AR步行导航找终点功能  中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军  揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?  微幼科技晨检机器人:幼儿园健康保障的新伙伴  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司