Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

2024-05-30 17:30:37次浏览条评论

5 月 30 日消息，谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？

根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。

上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。

哈迈百科注：Arena Elo 系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型（LLMs）的技能，并像国际象棋中的 Elo 系统一样更新用户的评分，整体而言更加客观。

国际最大规模，我国学者首次实现基于数百离子二维阵列的可单点分辨的量子模拟器

相关内容

1消息称谷歌安卓 15 “自适应振动”为 Pixel 独占：手机放沙发上加大振动、放桌子上减少振动
2谷歌安卓 Live Captions 将新增指示条，可拖动调整字幕显示行数
3谷歌将在马来西亚投资 20 亿美元：建数据中心 / 进一步开发 AI，拟创造 2.65 万个就业岗位
4OpenAI 首席技术官：生成式 AI 带来的经济影响“才刚刚开始”显现
5消息称阿尔特曼计划将 OpenAI 重组为营利性公司，旨在为投资者提供激励
6OpenAI 宣布成立安全与安保委员会，并启动下一代前沿模型训练
7OpenAI “宫斗大戏”拼图，前董事会成员回顾阿尔特曼被罢免风波
82500 页内部文件曝光，谷歌搜索引擎算法被指存在“撒谎”行为
9谷歌回应 YouTube 更新导致视频跳至片尾：提高平台稳定性，非遏制广告拦截器
10Opera 与谷歌云合作，浏览器 AI 助手 Aira 接入 Gemini 大模型
11谷歌安卓 15 Beta 2.1 修复初次启用“私人空间”功能时主屏图标丢失问题
12声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%
13谷歌投资十亿欧元扩张芬兰园区，同步建设其首个数据中心异地热回收系统
14感到震惊与愤怒，斯嘉丽・约翰逊控诉 OpenAI 擅用其声音
15OpenAI 高管 Jan Leike 离职，批判公司内部已不再将“安全”视为优先
16谷歌 DeepMind 推出 AI 安全框架 Frontier Safety Framework，可检测优化降低大模型风险性
17无需注册账号，免登录版 ChatGPT 应用有望很快登陆移动端
18按下按钮一键安装 PWA 网页应用，谷歌为第三方网站推出“添加到 Chromebook”API
19谷歌安卓 15 Beta 2.1 改善小部件功能：新增“添加按钮”、窗体预览可显示用户实际信息
20微软 Edge 浏览器将推出“AI 实时视频翻译”功能，支持 YouTube 等网站
21微软谷歌等 AI 巨头齐聚首尔：承诺安全开发人工智能模型，必要时关闭尖端系统
22“作为 AI 我推荐用这项商品”：谷歌宣布为人工智能“搜索总结内容”加入广告
23谷歌 AI“P 图”工具 Magic Editor 新增支持 Pixel 6/7 手机免费使用：可魔法换天、人物无缝移动
24谷歌安卓 15 Beta 2.1 带来“Sonos 专利战”胜利果实，用户可重新同时控制多组智能音箱音量
25沃尔玛推出 Onn 4K Pro 谷歌电视盒子：自带“查找我的遥控器”功能
26科大讯飞刘庆峰：今年 6、7 月就能赶上 GPT-4 目前水平
27谷歌宣布更多商家和平台支持 Google Pay 先买后付，线上购物更便捷
28OpenAI 和新闻集团签署多年协议，ChatGPT 可引用《华尔街日报》等媒体内容
29Adobe 预告安卓版 Acrobat 新功能：本地调用 Gemini Nano 汇总 PDF 文档内容
30谷歌痛斥 Epic 自私自利：开放 Play 商店将严重损害消费者、开发者和 OEM 厂商的利益