平博体育 pingbotiyu 分类>>
平博体育 平博体育官方网站 APP下载MIT发布自适应语言模型!新任务自生成远超「GPT-41合成训练数据」
平博体育,平博体育官方网站,平博体育APP下载/平博体育官方网站(Pinnacle)[永久网址:363050.com]平博体育每天为您提供近千场精彩体育赛事。 包括平博体育官网入口,平博体育网址,平博体育靠谱吗,平博体育app,平博app下载,平博官方网站,平博体育平台赛事,平博赛事,平博在线体育博彩,平博足球博彩,平博足球投注,平博真人、平博棋牌、平博彩票、平博电竞、平博百家乐、平博电子、全球各地赛事、动画直播、视频直播等服务。【新智元导读】自适应语言模型框架SEAL,让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异,显著提升了模型的适应性和性能,为大模型的自主学习和优化提供了新的思路。
经过海量文本预训练后的大模型,已经能够很好地理解语言,并根据要求来生成文本。
不过,在部署大模型应用于特定任务、整合新信息或学习新的推理技能时,仍然需要人工标注数据对模型权重进行微调。
大模型是否可以通过「自己生成训练数据和学习方法」来实现对新任务的自适应?
麻省理工学院的研究人员提出了一个全新的自适应语言模型(Self-Adapting LLMs,简称SEAL)的框架,可以让大模型通过生成自己的微调数据和更新指令来实现自适应。
与以往依赖独立适应模块或辅助网络的方法不同,SEAL直接利用模型自身的生成能力来参数化和控制其自我适应过程。
当模型接收到新的输入时,会生成一个「自编辑」(self-edit)——即自然语言指令,用于指定数据和优化超参数,以更新模型的权重。
通过有监督微调(SFT),自编辑能够实现持久的权重更新,从而实现长期的适应性。
为了训练模型生成有效的自编辑,研究人员采用强化学习循环,以「更新后模型在下游任务中的表现」作为奖励信号。
在尝试「将新的事实性知识整合到LLM」的实验上,研究人员使用SEAL模型生成的合成数据进行微调。
相比与直接在原始文本上微调不同,经过强化学习训练后,使用SEAL生成的合成数据进行微调,将SQuAD无上下文版本的问题回答准确率从33.5%提高到47.0%,甚至超过了GPT-4.1生成的合成数据。
研究人员还在ARC-AGI基准测试的简化子集上对SEAL进行了少样本学习评估,模型需要利用一组工具自主选择合成数据增强和优化超参数(例如学习率、训练周期、对特定token类型的损失计算)。
实验表明,使用SEAL自动选择和配置这些工具,比标准的上下文学习(ICL)和没有强化学习训练的自编辑表现更好。
假设语言模型的参数为θ,C是与任务相关的上下文信息,τ是用于评估模型适应性的下游任务,SEAL会针对每个任务实例(C, τ)进行操作。
在知识整合任务中,C是需要整合到模型内部知识中的段落,τ是关于该段落的问题和答案;
给定上下文C后,模型会生成一个自编辑(SE),通过有监督微调的方式来更新自己的参数。
研究人员使用强化学习来优化自编辑生成的过程:模型生成SE作为动作,根据生成SE后模型在τ上的表现获得奖励,并根据奖励更新策略,以最大化预期奖励。
由于模型参数会不断更新,之前版本模型收集的(状态,动作,奖励)三元组可能不再适用于当前模型。
因此,研究人员采用「在线策略」方法,即从当前模型中采样自编辑,并基于当前模型计算奖励。
相比其他策略方法,ReSTEM采用的「拒绝采样+有监督微调」,可以让训练过程更稳定。
ReSTEM的过程为:首先从当前模型策略中采样一些候选输出(即自编辑),然后只对那些获得正奖励的样本进行监督微调,以此来强化模型的策略。
由于大多数ARC任务对于未经过ARC预训练的模型来说难度较大,研究人员从ARC训练集中筛选出11个任务,从评估集中筛选出8个任务,确保这些任务在最优TTT(测试时训练,test-time training)配置下可以被基础的Llama-3.2-1B-Instruct模型解决。
在训练过程中,研究人员使用ReSTEM方法,通过为每个训练任务采样15个自编辑来训练模型。
每个自编辑分别应用于生成15个更新后的模型,然后在对应的测试样本上进行评估,只保留那些「经过适应后能够为测试输入生成正确输出」的模型。
评估指标为成功率:为每个保留的评估任务生成5个自编辑并评估模型,然后统计能够产生正确输出的自编辑的百分比,可以反映出所学自编辑生成策略的质量。
对比基线方法包括上下文学习(ICL)、TTT+自编辑(无强化学习)和Oracle TTT(性能上限)。
与基线方法相比,SEAL显著提高了适应成功率(72.5%),而未经强化学习训练的基础模型的自编辑成功率仅为20%,不进行任何适应的成功率为0%
研究人员使用Qwen2.5-7B模型,从SQuAD(斯坦福问答数据集)的段落中整合新的事实内容。
对比基线包括基础模型(直接在问答任务上评估,Base Model)、仅在段落上微调模型(Train on Passage)、在段落和自动生成的推论上训练模型(Train on Passage + Synthetic)、在段落和通过OpenAI API从GPT-4.1收集的模型生成推论上训练。
在单段落设置下,仅在段落上微调的模型相比基础模型几乎没有提升(33.5% vs. 32.7%),表明仅使用原始数据是不够的。
使用GPT-4.1生成的推论可以将准确率提升到46.3%,比仅使用段落的基线个百分点。
使用Qwen2.5-7B模型生成的合成数据可以达到39.7%,提高了6.2个百分点。
经过强化学习后,SEAL进一步将准确率提升到47.0%,尽管模型规模较小,但表现优于使用GPT-4.1生成的合成数据。
在持续预训练(CPT)设置下,模型从200个段落中整合信息,并在所有974个相关问题上进行评估。研究人员为每个段落采样5个自编辑生成内容,并将这些合成数据用于持续预训练。
虽然绝对性能低于单段落设置,但相对提升效果保持一致,这表明SEAL发现的编辑策略不仅适用于单个段落的合成数据生成,还能推广到更广泛的场景。
仅需两次迭代,SEAL就超过了使用GPT-4.1数据的效果,后续迭代的提升效果逐渐减弱,表明策略迅速收敛到一种能够「将段落提炼为易于学习的基本事实」的编辑风格。
从例子中,可以看到强化学习可以促使生成更详细的自编辑内容,而这些更详细的编辑又反过来提升了整体性能。
07月05日,云南文蒙铁路开展实质性施工 建成后接轨泛亚铁路东线必发官网,乐虎国际官网客户端,羽林娱乐注册
07月05日,保险业协会发布抽水蓄能和电化学储能电站保险风险评估工作指引,奥门新甫京娱乐下载,mg游戏平台官方网址,球探比分即时足球比分老板本,beat365手机版官方网站
07月05日,冷空气来袭 乌鲁木齐迎雨雪天气,赌博的网页,凯时最优质的运营商,万豪斗地主苹果版,杏彩客户端下载
07月05日付费面试辅导服务真的靠谱吗?篮球即时比分ug体育官方入口vwin娱乐官网品牌官网米乐体育外围
07月05日(乡村行·看振兴)新疆兵团:生态放牧助推畜牧业高质量发展 “赋能”乡村振兴捕鱼达人可以和朋友一起玩吗可以斗牛的游戏网络皇冠评级深海捕鱼电脑版
07月05日(文化新纪行)“淡季不淡,旺季更旺” 中国国家博物馆推展创结合亚星体育平台电玩棋牌游戏大厅棋牌娱乐游戏城澳门皇冠官网登录……
07月05日,镜观·足迹|携手同行,构建中拉命运共同体,芒果体育平台官方网站,欢乐牛牛规则,ag真人官网地址,皇室国际官网
07月05日,中国从泰国引渡首名经济犯罪嫌疑人 涉案资金超千亿,斗球APP官方下载ios,mg娱乐游戏,火狐体育官方,千赢国际手机客户端登
07月05日【冰雪春天】-30℃“保命穿搭”卖爆,冰雪游捧红了不止一个产业凯发娱乐注册页面在哪里新mg娱乐平台官网bg大游视讯app下载至尊赌场
07月05日,广西龙胜:侗族民众学舞吊龙迎新春,bbin体育官方地址,云顶娱乐注册页面在哪找,牛宝体育网址多少,下载就送66元的游戏
07月05日,中国贸促会:促进发展中国家和新兴经济体深度融入全球供应链,凯时注册App,米乐怎么开户,云顶娱乐手机,雷速体育官网8.3.0版本
07月05日,民俗游、出入境游热度UP↑这些地方五一“人气旺”,金年会 首页,黄冠体育APP下载,OD快速注册,HELE888
07月05日网购买到“毒糖果” 擦边减肥宣传何时休?又见野猪闯祸“人猪矛盾”何解?凯时kb大发好玩吗?葡京体育登陆澳博在线日鱼跃天山 游向全球注册得现金的appleyu乐鱼app链接ManBetx开户威尼斯人登陆界面
07月05日日本提升伊朗全境危险级别 建议不要进入伊朗纪念川藏、青藏公路建成通车70周年综述:幸福大道通四方葡京体育网站是什么188体育注册在线平台葡京国际登陆尊龙app在线登录
如何评价孙吧地位,哈里斯副手曾在中国任教600余家老字号齐聚第八届中华老字号(山东)博览会老街华纳公司ope体育c官网外围足彩网站有哪些澳门体育平台
超性,闲置数码怎么处理五一观澜|消费热潮传递经济“主引擎”加油轰鸣声新利luck18网址备用十大赌钱下载pp鸿博体育真人金狮贵宾如至一尊贵一显赫
赵丽颖乔妍的新事碎片,跳水解说这所学校,习主席说“见证了两国一段特殊交往史”大国外交·习主席的文化交流足迹凯发娱乐登录网页版狗万万博官网世界杯靠谱买球官网fg捕鱼输了好多钱
特斯拉丧失中国市场主动权,感冒后千万别做这3件事美媒:中国如何一步步赢得中东?365足球外围网站注册大玩家网站AS娱乐皇冠管理端登2网址最新
檀健次剧组日常,韩菱纱结局冰天雪地也是金山银山 倾力打造冰雪旅游超级IP多宝世界杯比分小米德州下载网投体育平台银河至尊网址
相关人士辟谣碧桂园被申请清盘,近视可从800度降到100度?钢琴家郎朗获聘浙江省第二届反诈宣传形象大使188亚洲体育与线体育滚球威尼斯手机版所有网站推荐棋牌游戏