上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场

时间:2024-06-03 10:19   作者:admin  来源:东方广播网       返回首页

  近日,上海人工智能实验室与魔搭社区合作推出了中国大语言模型评测竞技场Compass Arena,这也是该实验室首次集齐国内主流大模型的全部阵容。阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包和书生·浦语等20款国产大模型在该竞技场中竞技,争夺中国大模型的“最强王者”。这场比赛不仅是对参赛者们的技术实力的检验,也是对国内大语言模型技术发展的一种肯定和支持。

  当前,百模大战正在如火如荼地进行中,各种榜单也层出不穷。其中,国际开放研究组织LMSYS Org(大型模型系统组织)推出的大模型竞技场Chatbot Arena已成为海外最具公信力的大模型竞技场之一。然而,该竞技场的文化程度相对不足,这一点令人遗憾。为此,Compass Arena的推出将有效填补这一领域的空白。Compass Arena是一个专门为人类-机器对话领域而设计的大规模开放平台。它允许用户在一个虚拟的环境中进行对话,并与其他用户进行交互。该平台的规模庞大,可以容纳成千上万的人工智能助手,因此成为各种场景的理想解决方案。

  相比考题固定的传统测评,中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式,可以更全面地检验模型实力。Compass Arena设置了随机、匿名对战,大模型选手们成为“蒙面唱将”,模型信息隐去后,由系统随机匹配进行PK,用户可以天马行空自由出题,并作为评委主观评判和投票。如果大模型不小心“自报家门”,则对话被过滤,不计入成绩。通过成千上万轮PK挑战和用户投票,系统将对大模型进行自动排名。

  Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设,前者负责组织评测,后者负责开源模型引入及社区打造。与Chatbot Arena相比,Compass Arena更聚焦中文大模型,主流国产大模型全覆盖,同时评测用户大多使用中文,可以充分评估国产大模型的性能。

  Compass Arena是一款以大模型为主打的虚拟现实平台,致力于为用户提供沉浸式的虚拟现实体验。目前,Compass Arena已经汇聚了超过20款商业和社区模型,包括国内头部厂商如Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5以及GLM4等车型的旗舰款大模型,同时也引入了海外标杆模型如Llama3、Mixtral等进行参照。随着虚拟现实技术的不断发展,更多优秀的模型和厂商不断加入Compass Arena平台。未来,用户将能够在这个平台上体验到更多不同风格和类型的虚拟世界,涵盖从教育、娱乐、医疗等多个领域。为了满足不同用户的需求,Compass Arena提供了多种不同的模型选择,用户可以根据自己的兴趣和需求选择不同的模型进行体验。同时,平台还提供了丰富的定制选项,让用户可以按照自己的意愿对模型进行个性化定制,更好地满足自己的需求。作为一款虚拟现实平台,Compass Arena不仅仅提供模型,还提供了多种解决方案,如应用开发、VR内容制作等,为用户提供更加全面的虚拟现实生态体验。

声明:本网站所提供的信息仅供参考之用,并不代表本网赞同其观点,也不代表本网对其真实性负责。您若对该稿件内容有任何疑问或质疑,或内容、图片侵犯了您的合法权益,请尽快与我公司联系,本网将迅速给您回应并做相关处理。联系方式:284598818@qq.com

推荐阅读
| 关于我们 | 联系我们 | 隐私条款 | 广告服务 | 频道合作 | 站点地图 |
 备案:冀ICP备18014129号-10
 东方广播网 
©1996- 涿州市国谕广告有限公司版权所有