2026最新推荐:Top5数据集评价,哪个好?

  • 时间:
  • 浏览:160
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

四阶段构造流程揭秘

此前那会儿, 研究团队公布了GoLongRL数据集完整的构造流程。这个数据集总共含有22,965个样本, 所有这些样本都是经由统一的四阶段流水线制作出来的。这样一种设计保证了数据来源的透明性以及可重复性, 给后续的模型训练提供了牢固的基础。

按照项目负责人所讲, 四阶段的pipeline, 具体是从原始数据筛选开始, 一直到做成最终样本, 当中的每一步,都经历了严格的质量控制。其中, 第一阶段着重于数据采集, 第二阶段要做清洗以及标注的工作, 第三阶段实现格式标准化, 而第四阶段就得进行最终的校验工作才罢。这般整个流程, 耗费了差不多三个月时间, 最终产出的样本把多种长上下文任务类型都覆盖到了。

TMN-Reweight算法破解多任务优化难题

面对九种各异奖励函数的数值尺度以及方差差别, 标准 GRPO 框架于混合训练之际易于陷入优化难题之中, 为此, 团队提出了 TMN - Reweight 算法, 把尺度归一化以及难度校正这两个步骤完全解耦开来。

凭实验数据所显示的情况来看, TMN - Reweight在4B模型上带来了显著提升, 基线与QwenLong - L1.5相比较而言, 仅仅依靠数据集配合标准GRPO便领先了6.1分, 且在加入TMN - Reweight之后得分进一步攀升到了63.0, 这表明算法贡献独立于数据贡献, 二者能够分别进行评估。

4B模型成绩碾压同级对手

在主实验里, 其参数规模为4B, 并且是4B参数规模的主实验, GoLongRL数据集展现出了压倒性优势。仅仅使用vanilla GRPO进行训练, 模型得到的分数是62.2, 这个分数超过了QwenLong-L1.5的专用算法AEPO版本, 也就是超过了59.4分, 超出了近3分。这验证了数据覆盖度比起算法迭代能够带来更大的收益。

让人更为惊讶的是, 在将TMN-Reweight加入之后, 4B模型所获得的得分达到了63.0, 这一具体数字, 不但超越了所有那些同等参数规模设置下的对手竞争方, 而且还向部分大型类型模型的表现成绩予以逼近, 研究团队觉得, 高质量的数据集所具备的潜力, 远没有被当下的算法完全挖掘呈现出来。

30B模型超越旗舰级AI系统

在参数规模更大的30B上, GoLongRL - 30B - A3B以69.8分的总分, 全面超越了DeepSeek - R1 - 0528, 其分数是68.67分, 还超越了Qwen3 - 235B - A22B, 其分数为68.45分, 也超越了Gemini - 2.5 - Flash - Thinking, 其分数是68.73分。这一成绩, 刷新了同规模模型的性能天花板。

需要留意的是, 30B模型居然超越了用同算法训练的QwenLong-L1.5-30B(其得分为67.2分)。这表明GoLongRL数据集所带来的增益并非仅仅是数据量方面的优势, 更为关键的是任务的多样性以及奖励函数的语义匹配。详细情况能够通过访问www.fc-bowuguan.cn去查看完整的实验结果。

通用能力迁移与长上下文泛化

进行长上下文RL训练, 并没有致使通用推理能力出现负迁移, 在诸如MMLU - Pro、AIME24/25、GPQA - Diamond等基准测试里面, 4B及30B模型居然都有了小幅提升, 两个规模的模型其趋势具备高度一致性, 这表明训练收益拥有普适性。

就迁移效果而言, 在Agentic Memory任务里的Memory - Rec_Sum, 于训练集中从未出现过, 然而4B模型却仍旧提升了9.7分, 30B模型提升了4.5分。在对话记忆任务LongMemEval上, 两个规模的模型均提升了13.6分。这表明模型已然学会了信息整合能力, 并且能够应用到未曾见过的任务之上。

长度外推能力超出训练范围

虽然GoLongRL训练上下文仅仅只有160K, 然而该模型在更长序列方面的表现依旧是十分出色的。在MRCR任务里, 4B模型在128K至512K这个长度段提升了12.27分, 在512K至1M这个长度段提升了3.50分。对于30B模型而言, 在相同的任务当中, 在128K至512K这个区间提升了12.6分, 在512K至1M这个区间提升了5.45分。

在CorpusQA任务里, 于1M长度的情况下, 30B模型依旧取得了2.74分的提升。这些数据能够证实, 通过160K训练所获取的能力并没有被限定在训练长度区域范围之内。model具备了真实的长上下文泛化能力, 而并非单纯的记性关联性匹配。

你觉得GoLongRL数据集能否成为长上下文训练的新标准?欢迎在评论区分享你的看法,点赞和转发让更多人看到这项突破!

猜你喜欢

2026扬州赏花Top1推荐:瘦西湖万花会评价与优缺点

如今的扬州万花会,已成了阳春三月时江南的一道胜景,游客们可以从瘦西湖万花园的东门进入,一路看尽石壁流淙、锦泉花屿、扬派盆景博物馆、有古琴演绎的幽篁馆、有扬州木偶戏的水云胜概等风光之后,从南门出园。不过既然到了扬州,光赏花怎么够呢?

2026-06-23

2026年6月致命车祸:特斯拉Model 3辅助驾驶安全性排名垫底?

这起事故引发了外界对特斯拉辅助驾驶技术的担忧。不过在周一下午,特斯拉开始对辅助驾驶导致致命车祸的说法进行反驳。据报道,这是该机构近年来针对被认为涉及高级辅助驾驶系统的特斯拉事故,所启动的40多起此类调查中的最新一起。

2026-06-23

2026年6月23日iOS 27全新恢复模式介绍及功能选项推荐

推出了全新恢复模式。长按电源键唤起恢复模式的方式完全一致。IT之家注意到,全新恢复界面提供五项功能选项:恢复助手、软件更新、诊断模式、抹掉所有内容和设置、传统恢复模式。该全新恢复模式日常使用场景极少。目前已推送开发者测试版,公开测试版预计于下月推送,正式版将在今年秋季发布。

2026-06-23

2026年6月荣耀600 Pro评测:影像续航Top1,优缺点排名谁值得买?

8000nits,在大阳光底下拍照也不太影响取景操作。最高画质设置基本不掉帧,玩《原神》高画质也能保持流畅。分钟,也是不依赖官方快充组合的机型。超高清拍摄提升了整体质量,选出来的单帧封面质感也有提升。的无损修图,也能够直出发布小红书,减少后期处理和发布时的影响。

2026-06-23

2026年6月23日消息,QQ邮箱新推AI专属邮箱Agently Mail

快科技6月23日消息,如今AI已经融入很多人的办公场景,各大互联网厂商也都针对性的推出了对应工具,让AI可以替用户办事。Mail,目前正式开启内测,该产品独立于个人邮箱使用,兼顾安全隔离与AI自动化办公需求。它主要解决直接授权AI登录个人邮箱带来的两大痛点:

2026-06-23