中国第一家圆模制造厂
专业+/-0.1mm精密模切
爱游戏体育平台赞助马竞
爱游戏体育平台赞助马竞
爱游戏体育平台赞助马竞销售网络
首页 > 爱游戏体育平台赞助马竞

刷榜泛滥大模型求解“信任危机”

时间: 2024-05-20 07:50:31 |   作者: 爱游戏体育平台赞助马竞

  “对于评测的结果,我们也考虑过呈现出来,但终究是放弃了,因为本身存在着打榜的情况,而且也可以做针对性的优化。”在近日的一场活动中,谈及自家大模型的性能,一位相关负责人提到了这样一句话。而这也反映出了大模型狂飙一年半的另一面跑分、刷榜泛滥,所谓的评测已经严重失真。

  “坦率地讲,现在可能很多企业的老板都不清楚自己模型的真实水平,因为下面的团队永远都在说我们的模型是领先的,却始终缺乏一个客观公正的第三方评测。”5月17日,在接受各个媒体采访时,智源研究院院长王仲远如此说道。

  王仲远解释称,当榜单无法公正客观地反映大模型的真实水平时,也将不利于行业发展,甚至有可能出现劣币驱逐良币的情况。这时候更加需要一个专业且中立的机构,为大模型行业、产业、市场和技术的良性发展提供指导意义,“这也是我们发布这一测评结果的最终的原因”。

  当天,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

  据悉,本次评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力等七大能力,同时针对多模态模型则主要评估了多模态理解和生成能力。评测使用20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集等。

  公开信息显示,智源研究院是AI领域的新型研发机构。2018年11月14日,在科技部和北京市的支持下,联合北京多家AI领域优势单位共建。去年6月,智源研究院已推出全面开源的“悟道3.0”模型,包括视觉大模型EVA、大语言模型悟道天鹰在内的一系列多类别模型。

  事实上,伴随着大模型的火热,各种评测从一开始就带上了些“营销”的意味。时至今日,评测更是在跑分、刷榜中陷入了信任危机,这关乎技术发展,也关乎产业落地。

  “为了确保这件事情的绝对公平,智源研究院从一开始就确定了科学、权威、公正和开放的原则,所有评测工作也是围绕这四个关键词展开的。”在回答北京商报记者的提问时,王仲远如此说道。

  例如智源研究院采取了开卷考+闭卷考的方式,通过自建以及与合作伙伴共建的方式,原创了大量测试题。据悉,这些测试题在此次评测之后,也会全量更新,避免大模型出现提前背题情况。主观评测方面,针对每一题都会采用多人独立运营、打分等方式,同时通过多轮质检抽检降低主观评测偏差等。

  智源研究院副院长兼总工程师林咏华也对北京商报记者提到,大模型评测有三大问题,分别是如何确保评测不被“过拟合”、评测中要满足大模型新的使用场景、新的大模型模态对测评提出了新的要求。

  对应以上问题,大模型评测需要做到的就是题目方面的以新换旧、以难换易。而在场景上,以往大模型评测依靠的是概率,如何将对话、指令跟随等新场景的评测进行更新也是挑战之一。最后,大模型的发展对新模态有新要求,未来智源研究院也可能将可信相关的内容添加进评测中,用以满足大模型发展的需求。

  “我们要不断向前探索机制和技术,让评测的尺子更迅速地往高处生长,这样才可以更好地测量被测量对象。”

  从今日起,中国电信将再次大幅下调国际及港澳台地区漫游流量资费,同时开通覆盖绝大部分出访量的106个国家和地区的4G漫游服务。

  奇虎360认为用户在中输入“360省电王”时,下载链接指向搜狗手机助手。

  今日头条今日宣布战略投资国内知名图片库东方IC,投资案完成后,东方IC仍将继续保持独立运作。今日头条方面并未对外公布具体交易细节,不过有消息称该投资为控股级投资。

  违法和不良信息举报电话(涉网络暴力有害信息举报、未成年人举报) 举报邮箱:br>

上一篇: 打工人、宝妈、学生党都能用上大模型?我们实测了6款国产大模型的实用性|新视界

下一篇: 【48812】初中数学常见的23种数学模型汇总