OpenAI最强编程模子登场，实测竟又被Gemini 3 Flash按趴下

发布日期：2025-12-21 14:46 点击次数：61

编译 | 王欣逸

智东西12月19日音书，当天凌晨，OpenAI发布最新编程模子GPT-5.2-Codex，该模子基于GPT-5.2，对智能体编程才调进行了深度优化，具体包括：素质了长程任求实践、大限制代码变更、兼容Windows环境以及相聚安全防御等才调。OpenAI在博客中称这是他们迄今为止最强的编程模子。

据OpenAI官方博客，GPT‑5.2-Codex不仅领受了GPT‑5.2⁠的上风，还会通了GPT‑5.1-Codex-Max⁠的前沿智能体编程与末端操作才调，专为复杂的实际软件工程和相聚安全等专科界限蓄意，

OpenAI已率先在Codex CLI、IDE延迟、云表以及代码审查中发布了GPT‑5.2-Codex，当天起已向悉数付费ChatGPT用户通达，API访谒也行将上线。

值得一提的是，GPT‑5.2-Codex发布之前，谷歌刚晓谕推出Gemini 3 Flash模子。有网友让GPT‑5.2-Codex的Gemini 3 Flash共同实践任务，达成，GPT‑5.2-Codex败下阵来，在对50个文献进行缺欠审查的任务中，Gemini 3 Flash用时1分2秒，发现了5个问题，而GPT-5.2-Codex用时4分48秒，仅发现了2个Gemini 3 Flash已找到的问题。

GPT‑5.2-Codex的性能可能不足预期。有网友称，GPT‑5.2-Codex在SWE-Bench Pro上性能素质不到1%，还莫得发布SWE-Bench Verified达成，这难免让东说念主臆想GPT‑5.2-Codex并未达现时最优水平，在一些系统卡基准测试中还出现了性能零落。

据OpenAI官方博客，从功能上看，GPT‑5.2-Codex新增了原生坎坷文压缩工夫，在长坎坷文通晓、器具调用、事实准确性以及原生的坎坷文压缩上进展素质，推理时Token使用效率素质，还能更精确地通晓在编码经过中分享的截图、工夫图表、数据图以及用户界面。在原生Windows环境中，GPT‑5.2-Codex对GPT‑5.1-Codex-Max的才调作念了进一步的升级，智能体编程进展愈加高效和可靠。

GPT‑5.2-Codex在骨子软件工程任务中的进展存所素质，包括了代码库导航、重构、Pull Request的创建与审查等方面。

从基准测试来看，GPT‑5.2-Codex在评估设立确切天下代码问题的SWE-Bench Pro基准测试中得分为56.4%，脱落GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分；在计划编译和处事器建树等任务的Terminal-Bench 2.0基准测试中，GPT‑5.2-Codex得分为64.0%，显贵率先前代版块GPT‑5.1-Codex-Max的58.1%，展示出了模子在使用高歌行和末端科罚代理任务的逾越。

据OpenAI官方博客，在相聚安全界限，GPT‑5.2-Codex在夺旗挑战（CTF）中创下悉数模子的最好记录。从折线轨迹来看，咱们也能得出，就相聚安全评估，OpenAI的模子才调正在捏续素质。OpenAI博客称，他们正在全面升级相聚安全防护，还引入真实访谒机制来复旧防御责任。

OpenAI首席实践官萨姆·阿尔特曼（Sam Altman）称，上周，一位安全商讨东说念主员诓骗GPT‑5.1-Codex-Max发现并暴露了React中的一个缺欠，该缺欠可能导致源代码泄漏。这反馈出了模子才调应用于相聚安全带来的骨子价值。阿尔特曼还提到，这些模子还在束缚翻新中，最终会给相聚安全带来益处。

结语：AI编程器具竞争加重

GPT-5.2-Codex是OpenAI在编程模子上的又一次迭代，通过素质长程任务处理、大限制代码变更和特定环境进展，它为复杂开导与安全商讨提供了更雄伟的复旧，有望成为发现和设立缺欠的有劲器具。

在OpenAI本次更新之前，谷歌同日也发布了低资本的Gemini 3 Flash模子，AI编程赛说念竞争捏续浓烈。就现在来看，堪称OpenAI最强编程模子的GPT-5.2-Codex在实际场景中的骨子遵守、与竞争敌手产物的相比进展好像不足预期，该模子的骨子应用达成和性能历练或将成为接下来的焦点。

上一篇：ETF参加“品牌化”期间，谁能率先赢得相信？
下一篇：田曦薇代言 vivo S50发布：2999元起

友情链接：

让建站和SEO变得简单

OpenAI最强编程模子登场，实测竟又被Gemini 3 Flash按趴下

chaopeng欧美日韩视频

热点资讯

推荐资讯