
OpenAI 于周四发布一项新基准测试J9体育网,旨在评估其东说念主工智能模子在各样行业及工作中与东说念主类专科东说念主士的发达各异。这项名为 GDPval 的测试,是该公司为了解自身系统在 “高经济价值使命” 上与东说念主类发达的接近进程所作念的初步尝试 —— 而完了这一见解,恰是 OpenAI 缔造使射中 “研发通用东说念主工智能(AGI)” 的关节构成部分。
OpenAI 默示,忖度发现其 GPT-5 模子及 Anthropic 公司的 Claude Opus 4.1 模子 “在使命质地上已接近行业巨匠水平”。
但这并不虞味着 OpenAI 的模子行将立即取代东说念主类岗亭。尽管部分首席本质官预测东说念主工智能将在数年内取代东说念主类使命,但 OpenAI 承认,现在 GDPval 测试仅隐敝了东说念主类本体使命中极为有限的一部分任务。不外,这还是该公司权衡东说念主工智能向 “超越东说念主类” 这一里程碑迈进的最新风景之一。
GDPval 测试基于对好意思国国内分娩总值(GDP)孝敬最大的 9 个行业,涵盖医疗健康、金融、制造业、政府就业等限制。该基准测试评估东说念主工智能模子在这些行业的 44 种工作中的发达,工作领域从软件工程师、照看到记者不等。
在 GDPval 测试的首个版块(GDPval-v0)中,OpenAI 邀请资深专科东说念主士对东说念主工智能生成的论说与其他东说念主类专科东说念主士生成的论说进行对比,并选动身达更优的一份。举例,其中一项测试条款投资银行家撰写 “临了一公里配送行业” 的竞争敌手分析论说,并将其与东说念主工智能生成的论说对比。随后,OpenAI 管帐算该东说念主工智能模子在通盘 44 种工作的测试中,其论说 “优于或与东说念主类论说握平” 的胜率平均值。
关于 GPT-5 的增强版块 ——GPT-5-high(配备荒谬计较才调),OpenAI 默示该模子在 40.6% 的测试场景中,发达被评定为 “优于或与行业巨匠握平”。
OpenAI 还对 Anthropic 公司的 Claude Opus 4.1 模子进行了测试,限制显露该模子在 49% 的任务中发达 “优于或与行业巨匠握平”。不外 OpenAI 以为,Claude 能赢得如斯高的评分,更多是因为其擅永生成视觉恶果出色的图表,而非单纯依靠任务发达自己。
值得阻碍的是,大巨额职场东说念主士的使命远不啻 “向雇主提交忖度论说”—— 而这恰是 GDPval-v0 测试的一皆内容。OpenAI 也承认这一局限性,并默示贪图在改日开垦更全面的测试,纳入更多行业及交互式使命进程的评估。
尽管如斯,OpenAI 仍以为在 GDPval 测试中赢得的进展值得存眷。
在剿袭 TechCrunch(科技媒体)采访时,OpenAI 首席经济学家亚伦・查特吉(Aaron Chatterji)博士默示,GDPval 的测试限制标明,从事这些工作的东说念主如今不错借助东说念主工智能模子,将时辰插足到更特意旨的任务中。
“(因为)模子在这些任务上的发达越来越出色,” 查特吉说,“跟着模子才调的阻挡栽培,从事这些使命的东说念主不错越来越多地借助模子分管部单干作,进而去完成潜在价值更高的任务。”
OpenAI 评估部门隆重东说念主特贾尔・帕特瓦丹(Tejal Patwardhan)向 TechCrunch 默示,GDPval 测试中展现的独特速率让她备受饱读励。约 15 个月前发布的 OpenAI GPT-4o 模子,在该测试中 “优于或与东说念主类握平” 的胜率仅为 13.7%;而如今 GPT-5 的胜率险些是其 3 倍,帕特瓦丹瞻望这一高潮趋势还将握续。
硅谷领有多种用于权衡东说念主工智能模子进展、判断某一模子是否达到 “最先进水平” 的基准测试,其中最受接待的包括 AIME 2025(竞争性数学题测试)和 GPQA Diamond(博士级科常识题测试)。然而,部分东说念主工智能模子在这些基准测试中已接近 “性能富裕”,好多东说念主工智能忖度者默示,亟需更完善的测试来评估模子在本体任务中的才调。
跟着 OpenAI 阻挡解释其东说念主工智能模子对多个行业具有实用价值,GDPval 这类基准测试在关系讨论中的着急性可能会日益栽培。但要明确声称其东说念主工智能模子能超越东说念主类,OpenAI 省略还需要推出更全面的测试版块。
                海量资讯、精确解读,尽在新浪财经APP
            
            
            
			
			
包袱裁剪:郭明煜 J9体育网