新浪科技讯 5月18日下午消息,在北京智源研究院(智源研究院)大模型评测发布会上,智源评测体系发布并公布了140余个国内外开/闭源语言及多模态大模型能力评测结果。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡情况;在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出;在中文语境下的文生图能力上,国产多模态模型与国际一流水平差距较小。
据评测结果,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。
多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。
在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异。评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。
据介绍,2023年6月,智源研究院与多个高校团队共建FlagEval大模型评测平台上线,迄今为止已完成1000多次覆盖全球多个开源大模型的评测和报告发布。本次评测使用了20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。(文猛)
海量资讯、精准解读,尽在新浪财经APP责任编辑:张倩 宁波高新区圣特微电子科技有限公司
第二章 郑市长 长得还挺帅,眉毛下一双深邃的眼睛正紧紧的盯着自己,身材也不错,腿长的过分,很白却一点都不显得娘,更多的是不可捉摸的神秘感。 顾眠扫了一眼就收回了目光,转身朝着他的反方向走了过去。 宋墨森看着她离开的背影,又看了一眼二楼的阳台,他随手把香烟丢进了不远处的垃圾桶,想到了刚刚那女孩的神色。 和在医院时候一样,...
9月14日凌晨,西甲第5轮,贝蒂斯主场迎战莱加内斯。2-0,贝蒂斯收获赛季首胜。19岁的维托尔-罗克,替补出场打进贝蒂斯生涯处子球。4.8万球迷面前,罗克发泄式庆祝,一扫223天阴霾! 对罗克来说,过去9个月并不如意。 今年1月,罗克正式来到巴萨报到。巴西少年憧憬着,自己能成为巴萨主力,名扬天下,走上罗纳尔多、罗纳尔迪...
郑钦文,又赢了! 美网女单1/8决赛,郑钦文2-1击败维基奇,成功闯入8强!1/4决赛,郑钦文将对阵赛会2号种子萨巴伦卡。 对郑钦文来说,这是一场鏖战。 纽约当地时间9月1日23点25分,郑钦文VS维基奇的比赛开打。历经2小时50分钟,郑钦文拿下胜利,此时,已是当地时间2日凌晨2点15分。这也创造新纪录:美网历史上,最...
在羽毛球的世界里,有这样一位女子,她以卓越的球技、坚韧不拔的意志和灿烂的笑容,在双打赛场上绽放异彩,她就是奥运会羽毛球双打冠军——陈清晨。今天,就让我们一起走进这位羽坛巾帼英雄的辉煌人生宁波高新区圣特微电子科技有限公司,感受她如何用汗水与坚持铸就奥运金牌的传奇。 成长之路:从梅州到世界舞台 1997年6月23日,陈清晨...
新华社巴黎8月4日电(记者杨帆、马锴)在4日进行的巴黎奥运会三人篮球项目中,中国队12:21不敌法国队,在男子循环赛中积分垫底无缘附加赛,结束巴黎奥运会征程。 8月4日,中国队球员张宁(右)在比赛后与队友朱渊博握手致意。新华社记者 孟永民 摄 男子三人篮球单循环赛末轮中国队对阵法国队,战至4:4后,法国队连续得分将比分...