首页 > 实时讯息 >

初探OpenAI GPT-4.1：AI编程能力大增，但谷歌Gemini依然称王

0次浏览发布时间：2025-04-16 08:24:00

IT之家 4 月 16 日消息，科技媒体 bleepingcomputer 昨日（4 月 15 日）发布博文，报道称 OpenAI 最新发布的 GPT-4.1 系列模型，其性能相比 GPT-4o 虽然实现重大飞跃，但多项跑分未能超越谷歌的 Gemini 系列。

IT之家昨日报道，OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano，官方公布的跑分数据来看，这些模型在编程方面的能力，远超 GPT-4o 及 GPT-4o mini。

例如在 SWE-bench Verified 跑分中，GPT-4o 的得分为 21.4%，GPT-4.5 的得分为 26.6%，而 GPT-4.1 的得分为 54.6%。

尽管性能有较大提升，不过根据多位专家测试，相比较谷歌的 Gemini 系列，GPT-4.1 对比中却显露劣势。

根据 Stagehand（一款生产级浏览器自动化框架）发布的基准数据，Gemini 2.0 Flash 的错误率仅为 6.67%，精确匹配率高达 90%，且价格低廉、速度更快。相比之下，GPT-4.1 的错误率高达 16.67%，成本更是 Gemini 2.0 Flash 的 10 倍以上。

此外，哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出，GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。

在编码专项测试中，GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示，GPT-4.1 的编码得分仅为 52%，而 Gemini 2.5 则以 73% 的成绩遥遥领先。

值得注意的是，GPT-4.1 被归类为非推理模型（non-reasoning model），但其编码能力仍属行业顶尖。

本文分类：实时讯息
本文标签：得分错误率之家模型仅为能力系列数据
浏览次数：0 次浏览
发布日期：2025-04-16 08:24:00
本文链接：https://www.kmwz.net/news/AzlzXEzBG8.html

上一篇 > 河北省举行全民国家安全教育日宣传活动
下一篇 > 时政微观察丨把中越友好接力棒一代代传下去

飞牛NAS自曝将标配UPS不间断电源，预计10月中旬亮相

IT之家 9 月 13 日消息，飞牛 fnOS 官方昨晚发布了一条预热视频，表示将为其自研 NAS 成品标配 UPS 不间断电源，为数据保驾护航。IT之家注：UPS（Uninterruptible Power Supply）可在断电时为设备供电，以利于设备妥善关机。它可保护连接设备，使其免受意外断电

2025-09-13 09:30:00

易鑫入选“2025 AI Era企业创新大奖TOP55”，彰显AI驱动金融科技领先地位

2025年9月，人工智能领域权威媒体平台新智元在其十周年峰会期间正式发布“2025 AI Era企业创新大奖TOP55”榜单。国内领先的汽车金融科技平台——易鑫集团凭借突出的AI技术创新能力与规模化落地成果，成功入选该榜单，成为唯一上榜的汽车金融科技企业。权威评选聚焦AI创新标杆，评审维度全面专业“

2025-09-11 00:05:00

央视《朝闻天下》关注2025数博会：“人工智能+”元素突出

今天（8月29日），央视《朝闻天下》栏目播出新闻《2025数博会今起面向公众开放 “人工智能+”元素突出》，聚焦2025中国国际大数据产业博览会现场情况。从今天起2025中国国际大数据产业博览会面向社会公众开放，记者提前探访数博会现场发现，和往届相比，本届博览会“人工智能+”元素突出格外突出。今年的

2025-08-29 15:37:00

美国TOMEX+ 科研火箭计划明日发射，全球首测高层大气湍流

IT之家 8 月 20 日消息，美国宇航局于 8 月 18 日更新动态，其 TOMEX+ 科研火箭计划已进入最后倒计时，计划于明日（8 月 21 日）在美国华盛顿州的 Wallops Flight Facility 择机发射。IT之家援引官方介绍，TOMEX+ 的全称为 Turbulent Oxyg

2025-08-20 14:07:00

武汉骑手也有“安全分”了！不遵守交规，严重者将面临限制接单的处罚

本周，武汉市有100位快递和外卖企业骑手多拿了1000元，不是因为抢单多、送单快，而是因为他们送单时遵守交通规则。8月15日，在武汉市公安局交通管理局举办的交通安全激励颁奖仪式上，武汉市安全分高排名前100的快递、外卖企业骑手，每人获得了1000元奖励金。据美团相关负责人介绍，目前“安全分体系”已在

2025-08-16 19:08:00

初探OpenAI GPT-4.1：AI编程能力大增，但谷歌Gemini依然称王

热门文章

最新文章