MiniMax发长文回应“模型无法说出马嘉祺”
5月9日,长文MiniMax官微发长文回应M2系列模型无法说出马嘉祺一事,模型马嘉提供了对“嘉祺识别”问题的无法完整排查过程和技术思考。 MiniMax表示,说出其从分词器版本对齐、长文embedding统计分布、模型马嘉语义近邻检索、无法预训练与后训练模型的说出few-shot对比实验、后训练数据频次统计以及对全词表lm_head变化幅度的长文排序扫描等多个维度进行了排查。最终定位到的模型马嘉原因是:“嘉祺”在分词器中被合并为一个独立token,但该token在后训练数据中出现频次极低,无法导致模型在后训练中逐渐遗忘了对该token的说出生成能力。 修复方案方面,长文MiniMax构造了一份覆盖全词表的模型马嘉合成数据,核心思想是无法:通过一个简单的复读任务,为全词表建立一个生成频率的“下限保障”,防止任何token因为完全缺失而退化。此外,MiniMax表示,将token覆盖度作为后训练数据质量的一项常规监控指标,可以在早期发现潜在的稀疏token退化风险,避免类似问题在线上复现。
- 最近发表
- 随机阅读
-
- 港股异动丨爱芯元智逆势大涨10%创近2个月新高 近一个半月已反弹超40%
- 快讯!美军在东太平洋发动袭击
- 长治市中医医院基因扩增(PCR)实验室顺利通过山西省临床检验中心技术审核
- 八十一岁妹妹与“二十四岁”哥哥“再相见”——一声“三哥”,了却半生心愿
- 17岁女孩凌晨称要出门复印试卷后彻夜未归,监控最后画面在距家2公里的大桥附近,家人称其失联前并无异常,目前警方正全力寻人
- 镜观中国·新华社国内新闻照片一周精选丨国内首艘民资建造科考船在浙江温岭下水
- 省十七运气功、击剑比赛在壶关开赛
- “菜市场禁剥蚕豆”热传,是怕引发蚕豆病?最新后续→
- 15名教练集体起诉驾校 法官解纠纷
- 中国营商环境发展报告发布:广州创新供电服务入选全国典型
- 国家医保局发布4起参保人骗取医保基金典型案例
- 【新华网】昭通推动劳动争议多元化解
- 算力硬件股再度拉升,广合科技午后涨停
- 刘彦春在管3只产品增聘基金经理
- 罕见!近20年来首次,红场阅兵不展示重型装备
- “菜市场禁剥蚕豆”是怕引发蚕豆病?(2026·05·08)
- 住房城乡建设部:再生水成为城市稳定的“第二水源”
- 国家医保局发布4起参保人骗取医保基金典型案例
- 让光子学会“成对”出场(探一线)
- “美方可能重启‘自由计划’行动”
- 搜索
-
- 友情链接
-