0次浏览 发布时间:2025-04-16 08:24:00
IT之家 4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。
IT之家昨日报道,OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,官方公布的跑分数据来看,这些模型在编程方面的能力,远超 GPT-4o 及 GPT-4o mini。
例如在 SWE-bench Verified 跑分中,GPT-4o 的得分为 21.4%,GPT-4.5 的得分为 26.6%,而 GPT-4.1 的得分为 54.6%。
尽管性能有较大提升,不过根据多位专家测试,相比较谷歌的 Gemini 系列,GPT-4.1 对比中却显露劣势。
根据 Stagehand(一款生产级浏览器自动化框架)发布的基准数据,Gemini 2.0 Flash 的错误率仅为 6.67%,精确匹配率高达 90%,且价格低廉、速度更快。相比之下,GPT-4.1 的错误率高达 16.67%,成本更是 Gemini 2.0 Flash 的 10 倍以上。
此外,哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出,GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。
在编码专项测试中,GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示,GPT-4.1 的编码得分仅为 52%,而 Gemini 2.5 则以 73% 的成绩遥遥领先。
值得注意的是,GPT-4.1 被归类为非推理模型(non-reasoning model),但其编码能力仍属行业顶尖。
相关文章
IT之家 9 月 13 日消息,飞牛 fnOS 官方昨晚发布了一条预热视频,表示将为其自研 NAS 成品标配 UPS 不间断电源,为数据保驾护航。IT之家注:UPS(Uninterruptible Power Supply)可在断电时为设备供电,以利于设备妥善关机。它可保护连接设备,使其免受意外断电
2025-09-13 09:30:00
易鑫入选“2025 AI Era企业创新大奖TOP55”,彰显AI驱动金融科技领先地位
2025年9月,人工智能领域权威媒体平台新智元在其十周年峰会期间正式发布“2025 AI Era企业创新大奖TOP55”榜单。国内领先的汽车金融科技平台——易鑫集团凭借突出的AI技术创新能力与规模化落地成果,成功入选该榜单,成为唯一上榜的汽车金融科技企业。权威评选聚焦AI创新标杆,评审维度全面专业“
2025-09-11 00:05:00
今天(8月29日),央视《朝闻天下》栏目播出新闻《2025数博会今起面向公众开放 “人工智能+”元素突出》,聚焦2025中国国际大数据产业博览会现场情况。从今天起2025中国国际大数据产业博览会面向社会公众开放,记者提前探访数博会现场发现,和往届相比,本届博览会“人工智能+”元素突出格外突出。今年的
2025-08-29 15:37:00
美国TOMEX+ 科研火箭计划明日发射,全球首测高层大气湍流
IT之家 8 月 20 日消息,美国宇航局于 8 月 18 日更新动态,其 TOMEX+ 科研火箭计划已进入最后倒计时,计划于明日(8 月 21 日)在美国华盛顿州的 Wallops Flight Facility 择机发射。IT之家援引官方介绍,TOMEX+ 的全称为 Turbulent Oxyg
2025-08-20 14:07:00
武汉骑手也有“安全分”了!不遵守交规,严重者将面临限制接单的处罚
本周,武汉市有100位快递和外卖企业骑手多拿了1000元,不是因为抢单多、送单快,而是因为他们送单时遵守交通规则。8月15日,在武汉市公安局交通管理局举办的交通安全激励颁奖仪式上,武汉市安全分高排名前100的快递、外卖企业骑手,每人获得了1000元奖励金。据美团相关负责人介绍,目前“安全分体系”已在
2025-08-16 19:08:00