云南淘乐房科技有限公司

400 128 6709

行业新闻

当前位置：首页 > 新闻中心 > 行业新闻

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

发布时间：2024-12-18

点击次数：

大幅提升小模型性能：hugging face开源deepmind技术，1b参数模型超越70b模型！

近期，业界对小模型的关注度空前高涨，许多“实用技巧”让小模型性能超越了更大规模的模型。这种趋势源于大模型训练成本的急剧增加，动辄数十亿美元的集群投入使得探索更经济高效的方案成为必然。

因此，“测试时计算扩展”（test-time compute scaling）应运而生。该方法并非依赖于扩大预训练规模，而是通过动态推理策略，让模型在复杂问题上“思考更久”。OpenAI的o1模型就是一个典型案例，其在困难的数学问题上，性能随着测试时计算量的增加而持续提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

虽然o1的训练细节未公开，但DeepMind的研究表明，迭代自我改进或基于奖励模型的解决方案空间搜索等策略，能够实现测试时计算的最佳扩展。通过自适应地分配测试时计算资源，小模型可以与大型模型性能相当，甚至超越后者。尤其在内存受限、硬件资源不足的情况下，这种方法更具优势。然而，DeepMind的研究结果主要基于闭源模型，缺乏实现细节和代码公开。

DeepMind论文：https://www.php.cn/link/d69aed2be954d4c17700d4a99d79e42a

Hugging Face积极跟进DeepMind的研究，并取得了显著成果。他们开源了相关技术，主要包括：

计算最优扩展 (compute-optimal scaling)：通过复现DeepMind的技术，提升开放模型的数学能力。
多样性验证器树搜索 (DVTS)：验证器引导树搜索技术的扩展，提升多样性，尤其在测试时计算预算较大时性能更佳。
搜索和学习：一个轻量级工具包，用于实现基于LLM的搜索策略，并利用vLLM加速。

实验结果令人振奋：在MATH-500基准测试中，给予足够“思考时间”，1B和3B参数的Llama Instruct模型，性能超越了8B和70B参数的模型。

Hugging Face联合创始人兼CEO Clem Delangue表示，仅在OpenAI o1发布十天后，他们就开源了其核心技术的复现版本，证明了通过延长模型“思考时间”，小模型也能战胜大型模型。

神笔马良

神笔马良

神笔马良 - AI让剧本一键成片。

神笔马良

320 查看详情神笔马良

神笔马良

测试时计算扩展策略

主要策略包括：

自我改进：模型迭代改进自身输出，但需模型具备自我改进机制，适用性受限。
基于验证器的搜索：生成多个候选答案，用验证器选择最佳答案。验证器可以是硬编码启发式方法或学习型奖励模型。本文重点介绍学习型奖励模型，包括Best-of-N采样和树搜索等技术。

Hugging Face专注于基于搜索的方法，主要包括：

Best-of-N：生成多个响应，用奖励模型评分，选择最高分的答案。
集束搜索：系统探索解决方案空间，通常与过程奖励模型(PRM)结合使用，优化问题解决的中间步骤。
多样性验证器树搜索 (DVTS)：集束搜索的扩展，提升解决方案多样性和性能。

实验设置及结果

实验使用meta-llama/Llama-3.2-1B-Instruct模型，RLHFlow/Llama3.1-8B-PRM-Deepseek-Data作为PRM，以及MATH-500数据集。

结果显示，集束搜索在计算效率上显著优于Best-of-N和多数投票，性能与Llama 3.1 8B模型相当。DVTS则在较大计算预算下表现更佳，提升了简单/中等难度问题的性能。计算最优扩展策略则在3B参数模型上取得了超越70B模型的惊人效果。

未来方向

未来研究方向包括：提升验证器性能，实现模型自我验证，将思维融入生成过程，利用搜索生成高质量训练数据，以及开发更多领域的PRM。

原文链接：https://www.php.cn/link/9f7c4bb3946f029b56eebff3203cc5d5

以上就是3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源的详细内容，更多请关注其它相关文章！

# ai # 理论 # 自助网站建设资讯怎么写 # 亳州网站视频推广公司 # 和顺营销推广公司 # 特价网站建设价格低 # 广州市seo网站关键词优化报价 # 亳州网站推广有哪些 # 沧州营销推广公司哪家好 # 中山娄底seo优化 # 珠海关键词排名优化公司 # 房山区网站优化的方案 # 如何解决 # 主要包括 # 一言 # 则在 # 生命科学 # 多家 # 多个 # 自定义 # 开源 # 时计 # llama # hugging face # deepseek

相关栏目：【行业新闻62819 】【科技资讯67470 】

相关推荐：微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源人工智能加速走进百姓生活：从2025全球人工智能技术大会看行业新趋势苹果推出全新沉浸式 AR 体验应用“Deep Field” 黄仁勋：5年前，我们对AI抱有巨大期望对艺术家拒绝置若罔闻，Stability AI 将推出适应多种画风的开源模型为AI而服务设计：构建以人为本的AI创新方法 AI+音乐如何“生成”动听旋律？一起揭秘世界人工智能大会开场曲麦肯锡：到 2045 年左右，将有 50% 工作被 AI 接管人工智能创作的“婴儿版超级英雄”，你觉得哪个最可爱 “黑科技”亮相大湾区轨交论坛智慧交通迈向“强AI” 联通发布鸿湖图文AI大模型1.0，可实现以文生图 AI+游戏首度大范围公布实际应用成果，AI全面来临还有多远？【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播！ OpenAI 向所有付费 API 用户开放 GPT-4 网易易盾 AI Lab 论文入选 ICASSP 2025！黑科技让语音识别越“听”越准编程已死，AI 当立？教授公开“唱反调”：AI 还帮不了程序员华为大模型登Nature正刊！审稿人：让人们重新审视预报模型的未来 “木头姐”：特斯拉的人工智能训练——“赢家通吃”的机会《爱康未来之夜嘉宾官宣，携手共赴AI未来》人脸识别+全景双摄+AI算法萤石推动智能锁行业革新新华三集团总裁兼首席执行官于英涛：人工智能时代需要想象力，更需要精耕务实三个全球首创，青岛西海岸新区“海元宇宙”亮相世界人工智能大会 13万个注释神经元，5300万个突触，普林斯顿大学等发布首个完整「成年果蝇」大脑连接组 Spotify计划推出AI驱动的音乐播放器功能微幼科技晨检机器人：幼儿园健康保障的新伙伴定义人工智能的十个关键术语人工智能进入绿植界，智能庭院市场初具规模阿里云AI绘画创作大模型通义万相发布已开启定向邀测微软面向AI初学者推出免费网络课程万兴播爆桌面端上线，支持AI数字人搜索、视频编辑等功能人工智能驱动智能建筑会是未来趋势吗？西班牙小鲜肉*视频在网上疯传，本人发文澄清：是AI换脸的假视频！京东 AI 大模型官宣 7 月 13 日发布，还有重磅合作 CREATOR制造、使用工具，实现LLM「自我进化」苹果在韩举办首届中小企业智能制造论坛，加速推动工业4.0发展 AI框架生态峰会本周开幕华为昇腾“朋友圈”再聚首全球首个全模态大模型将登场 DreamAvatar数字人在哪里下载百度举办AIGC创作沙龙，现场传授AI绘画“咒语”技巧特斯拉人形机器人将亮相预计售价不超过15万元美图公司吴欣鸿：AI技术重构影像产业速途网络成立“人工智能专家委员会”5位中美博士加盟人工智能赋能广西自然资源领域监测监管 WHEE安装教程工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链首届亚太网络法实务大会召开九位大咖探讨元宇宙与人工智能发展专家解读国家网信办深度合成服务算法备案信息公告：不等于百度、阿里、腾讯等生成式AI产品获批 Meta 为打造元宇宙不惜下血本：VR 开发者年薪高达百万美元人工智能：解决劳动力短缺的关键策略破解零碳产业园建设规范和成果评价难题人工智能的变革之路：通过OpenAI的GPT-4漫游

上一篇：铠侠正式上市开盘涨4%

下一篇：上周新势力销量榜公布：深蓝进入前三，腾势跻身前十

400 128 6709

E-mail

contact@tlftec.cn

扫一扫，添加微信

© 云南淘乐房科技有限公司版权所有滇ICP备2025071560号