今日(12月21日),OpenAI备受瞩目的“连续12日圣诞发布”活动迎来了激动人心的终章。OpenAI推出了具有重大意义的收官新品——迄今最强前沿推理模型的升级版o3。

OpenAI宣称,o3在某些条件下已接近通用人工智能(AGI)的水平。该模型共有o3和精简版o3 - mini两个版本。
相关评估结果显示,在软件工程测试中,o3的准确率相较于o1提高了近47%;在竞赛数学测评里,准确率比o1高15%;在人类博士专家级生化物测试中,准确率比o1高出近13%。
在AGI相关测试中,o3取得了87.5的最佳成绩,超过了人类水平门槛85,这表明其在迈向类人智能方面取得了突破性进展。
与之形成鲜明对比的是,GPT - 3的评测结果为0%,GPT - 4o为5%,而o3则将成绩大幅提升至87.5%。

OpenAI计划于明年初发布o3系列模型。其CEO Altman暗示,这类模型可能在一段时间内不会面向大众上线。他表示,希望在正式发布前,先建立一个联邦政府的测试框架,用以指导监控并降低这类模型可能带来的风险。
从本周五开始,OpenAI允许安全研究人员注册访问o3和o3 - mini的预览版本。


