6月10日晚,Sam Altman 首先在X上宣布了o3模型降价80%,并暗戳戳预告了o3-pro版本的性价比。
6个小时之后,OpenAI 正式宣告了o3-pro 版本的登场。
o3-pro 是OpenAI 目前最智能的模型 o3 的一个版本,使用与 o3 相同的底层模型。与 o3 一样,o3-pro 可以使用 ChatGPT 所需的工具——它可以搜索网页、分析文件、推理视觉输入、使用 Python、利用记忆个性化响应等等。在此基础上,o3-pro提供了更可靠的响应。
也因此,它的响应通常需要更长的时间才能完成。官方建议将其用于棘手问题,主打可靠性,而不是速度。
即日起,o3-pro 将在 Pro 和 Team 用户的型号选择器中可用,取代 o1-pro。企业和教育用户将于下周获得访问权限。
据模型发布说明,OpenAI 通过专家评估、学术评估、“4/4 可靠性”评估三个指标来衡量o3-pro 版本的表现。
在专家评估中,评论者在所有测试类别中始终更青睐 o3-pro,尤其是在科学、教育、编程、商业和写作帮助等关键领域。评论者还一致认为 o3-pro 在清晰度、全面性、指令遵循性和准确性方面均获得更高的评价。
学术评估则表明,o3-pro 的表现始终优于 o1-pro 和 o3。
“4/4 可靠性”评估的考核标准是:当只有在四次尝试中(而不是一次)正确回答问题,模型才被视为成功。
在这个维度,OpenAI 的表现也可圈可点。
美国经济学家Tyler Cowen很快发文表示:“o3-pro非常非常好”。Sam Altman 也很较真,随即回复到:有多好?
并给大家举了个例子,转发了o3-pro “使用经验帖”。
具体来说,前 Apple 人机界面设计、现 Raindrop AI首席技术官Ben Hylak提前体验了 o3-pro。
起初,他觉得 o1/o1-pro 并不好用。后来他发现自己用错了它。而使用的关键在于:不要和它聊天,而是要把它当成一个报告生成器。
赋予它背景,设定目标,然后尽情发挥。
具体的操作上,他和他的联合创始人 Alexis 花时间整理了过去在Raindrop的所有规划会议记录,记录了所有的目标,甚至还录制了语音备忘录:然后请 o3-pro 制定计划。
结果让Ben和Alexis很震撼, 因为o3-pro 给出了他一直希望法学硕士能够创建的那种具体的计划和分析——包括目标指标、时间表、优先事项以及*要削减的内容的严格指示。
“o3 给我们的计划是可行的、合理的;但 o3-pro 给我们的计划是具体的、足够根深蒂固的,它实际上改变了我们对未来的看法。” Ben表示。
也就是说,如今的模型在独立测试中表现非常出色,以至于简单的测试已经用完了。而真正的挑战也随即到来:如何让它们融入社会,融入具体的现实情境?
“一个智商很高的12岁孩子去上大学。他们可能很聪明,但如果无法融入社会,就无法成为有用的员工。”Ben说到。
目前,大模型的集成主要体现在工具调用上:模型与人类、外部数据和其他人工智能的协作效果如何。它是一位优秀的思考者,但还需要进一步发展成为一位优秀的行动者。
Ben认为,o3-pro 在这方面取得了显著的进步:它能够更有效地识别自身环境;能够准确地传达其可以使用的工具;能够何时询问外部世界(而不是假装拥有相关信息/访问权限);能够选择合适的工具来完成工作。
他在帖子中还附上了自己的使用对比:o3-pro(左)与 o3(右)。
可以看到,o3-pro(左)能够更清楚地了解其环境的限制。
不过,o3-pro的缺点也很明显。例如,o3-pro 不支持图像生成,也不支持 Canvas。用户目前仍然需要使用 GPT-4o、OpenAI o3 或 OpenAI o4-mini 来生成图像。
在抢先版使用体验中,Ben也注意到:如果你不给它足够的背景信息,它确实容易想得太多。它非常擅长分析,擅长使用工具做事,但不太擅长直接做事。有些 ClickHouse SQL 问题 o3 显然做得更好,因人而异,也因任务而异。
Sam Altman似乎对o3-pro有着很深的寄托。模型发布的同时,他写下了题为《温和的奇点》的文章。并表示,这可能是他最后一篇完全没有AI帮助的文章了。(我为自己能用老套的方式写出“从相对论的角度来看,奇点是一点一点产生的,融合是缓慢发生的”而感到自豪。)
未来,OpenAI 将花费更多时间在open-weights model上,预计在今年夏天晚些时候推出。
“我们的研究团队做了一些意想不到的、非常了不起的事情,我们认为它非常值得等待,但需要更长的时间。”Sam Altman 在X中说到。