阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位。

编辑:三茅网 2024-06-28 10:20 106 阅读

6月27日凌晨,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。 

他表示,为了提供全新的开源大模型排行榜,使用了300块H100对目前全球100多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。

重新评估的原因是,目前开发者太注重排行榜的名次,在训练过程中使用了很多评估集的数据,并且之前的评估流程对于那些模型来说太简单了,所以,本次给这些模型加大了难度,想看看它们的真正实力。

结果显示,阿里开源的Qwen-2 72B力压科技、社交巨头Meta的Llama-3、法国著名大模型平台Mistralai的Mixtral成为新的王者,中国在全球开源大模型领域处于领导地位。

根据排行榜的数据显示,Meta开源的Llama-3-70B指令微调版本位列第2;阿里的Qwen2-72B基础版本排名第3;Mistralai的Mixtral-8x22B指令微调版本排名第4;

微软最新开源的小参数模型Phi-3-Medium-4K 14B排名第五,这说明小参数模型经过高质量数据集的预训练,同样能实现媲美大参数模型的能力。

中国零一万物最新开源的Yi-1.5-34B-Chat版本排在了第六名;知名大模型平台Cohere开源带RAG功能的Command R+ 104B排名第7;

英伟达开源的Smaug-72B-v0.1曾经排名第一,但在新的排行榜只有第8名;第9和第10名,全部都是阿里之前开源的Qwen1.5基础和Chat版本。

所以,全新排行榜的前10名竞争非常激烈,很多都是当过之前排行榜第一名的高手,相当于大模型界的“华山论剑”。

阿里开源的4款大模型傲视群雄,无愧于“中神通”的名号,这也充分说明中国对全球开源大模型的重要贡献以及领导地位。

对于这个排名结果,StabilityAI的研究总监,19岁便获得博士学位的Tanishq表示,他很早就说过中国在开源大模型领域非常有竞争力,除了Qwen2,还有零一万物、InternLM、Deepsseek等很多知名的开源模型。

关于中国在开源大模型领域处于落后状态简直可笑,相反,他们却处于领导者地位

对于阿里Qwen-2取得如此高的成绩,确实让很多人感到惊讶,但事实结果就是这样。

他们也把希望寄托在Meta身上了,赶紧发布点新模型和Qwen-2再来一次大PK。

其实,不只是huggingface,曾经就有人发布过ElyzaTasks100性能评测,Qwen2-72B的指令微调版本也是性能最高的开源大模型,仅次于OpenAI的GPT-4o,高于谷歌的Gemini1.5Pro

其实在与OpenAI、Anthropic这两家著名闭源大模型平台进行PK时,Qwen2-72B指令微调版本也丝毫不落下风,也是中国唯一进入美国评估标准前10的国内公司。

希望阿里砥砺前行,更上一层楼。期待未来发布更多高性能的开源大模型,造福全人类。

(本文来源腾讯网,如有侵权请联系删除)

【资料π送】考勤/绩效/工资/社保(680份带公式的Excel模板)
讲真,很多职场人用了那么多年的Excel,依然停留在简单的表格绘制和公式运用上。可能有小伙伴会说,“Excel很简单啊,不就是输入数字,然后加减乘除嘛,这是计算器都能完成的工作啊。”这么想就错了!Excel里真正...
2024-06-27 14:30
下载APP
扫码下载APP
三茅公众号
扫码添加公众号
在线咨询
扫码在线咨询
消息
关注
粉丝
正在加载中
猜你感兴趣
换一批
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
评论和点赞
59452
企业的人才理念应该和整体的用人理念有所区别,因为人才和普通劳动力,本身就身就存在质量身就存在质量存在质量
更多
消息免打扰
拉黑
不再接受Ta的消息
举报
返回消息中心
暂无权限
成为三茅认证用户,即可使用群发功能~
返回消息中心
群发消息本周还可群发  次
文字消息
图片消息
群发须知:
(1)  一周内可向关注您的人群发2次消息;
(2)  创建群发后,工作人员审核通过后的72小时内,您的粉丝若有登录三茅网页或APP,即可接收消息;
(3)  审核过程将冻结1条群发数,通过后正式消耗,未通过审核会自动退回;
(4)  为维护绿色、健康的网络环境,请勿发送骚扰、广告等不良信息,创建申请即代表您同意《发布协议》
本周群发次数不足~
群发记录
暂无记录
多多分享,帮助他人成长,提高自身价值
群发记录
群发文字消息
0/300
群发
取消
提交成功,消息将在审核通过后发送
我知道了
您可以向我询问有关该内容的任何信息,或者点击以下选项之一:
{{item}}
三茅网出品,免费使用
复制
全选
总结
解释一下
延展问题
自由提问

阿里Qwen-2成全球开源大模型排行榜第一,中国处于领导地位。

编辑:三茅网2024-06-28 10:20
106 阅读

6月27日凌晨,全球著名开源平台huggingface(笑脸)的联合创始人兼首席执行官Clem在社交平台宣布,阿里最新开源的Qwen2-72B指令微调版本,成为开源模型排行榜第一名。 

他表示,为了提供全新的开源大模型排行榜,使用了300块H100对目前全球100多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。

重新评估的原因是,目前开发者太注重排行榜的名次,在训练过程中使用了很多评估集的数据,并且之前的评估流程对于那些模型来说太简单了,所以,本次给这些模型加大了难度,想看看它们的真正实力。

结果显示,阿里开源的Qwen-2 72B力压科技、社交巨头Meta的Llama-3、法国著名大模型平台Mistralai的Mixtral成为新的王者,中国在全球开源大模型领域处于领导地位。

根据排行榜的数据显示,Meta开源的Llama-3-70B指令微调版本位列第2;阿里的Qwen2-72B基础版本排名第3;Mistralai的Mixtral-8x22B指令微调版本排名第4;

微软最新开源的小参数模型Phi-3-Medium-4K 14B排名第五,这说明小参数模型经过高质量数据集的预训练,同样能实现媲美大参数模型的能力。

中国零一万物最新开源的Yi-1.5-34B-Chat版本排在了第六名;知名大模型平台Cohere开源带RAG功能的Command R+ 104B排名第7;

英伟达开源的Smaug-72B-v0.1曾经排名第一,但在新的排行榜只有第8名;第9和第10名,全部都是阿里之前开源的Qwen1.5基础和Chat版本。

所以,全新排行榜的前10名竞争非常激烈,很多都是当过之前排行榜第一名的高手,相当于大模型界的“华山论剑”。

阿里开源的4款大模型傲视群雄,无愧于“中神通”的名号,这也充分说明中国对全球开源大模型的重要贡献以及领导地位。

对于这个排名结果,StabilityAI的研究总监,19岁便获得博士学位的Tanishq表示,他很早就说过中国在开源大模型领域非常有竞争力,除了Qwen2,还有零一万物、InternLM、Deepsseek等很多知名的开源模型。

关于中国在开源大模型领域处于落后状态简直可笑,相反,他们却处于领导者地位

对于阿里Qwen-2取得如此高的成绩,确实让很多人感到惊讶,但事实结果就是这样。

他们也把希望寄托在Meta身上了,赶紧发布点新模型和Qwen-2再来一次大PK。

其实,不只是huggingface,曾经就有人发布过ElyzaTasks100性能评测,Qwen2-72B的指令微调版本也是性能最高的开源大模型,仅次于OpenAI的GPT-4o,高于谷歌的Gemini1.5Pro

其实在与OpenAI、Anthropic这两家著名闭源大模型平台进行PK时,Qwen2-72B指令微调版本也丝毫不落下风,也是中国唯一进入美国评估标准前10的国内公司。

希望阿里砥砺前行,更上一层楼。期待未来发布更多高性能的开源大模型,造福全人类。

(本文来源腾讯网,如有侵权请联系删除)

展开全文
顶部
AI赋能,让您的工作更高效
您可以向我询问有关该内容的任何信息,或者点击以下选项之一:
{{item}}
{{copyMenuTxt}}
您可以向我询问有关该内容的任何信息,或者点击以下选项之一:
{{item}}
{{copyMenuTxt}}
三茅网出品,免费使用
复制
全选
总结
解释一下
延展问题
自由提问
联系我们(工作日 09:00-19:00 )