根据最新信息,马斯克宣布的Grok4发布计划及性能数据已得到部分验证,但部分细节需进一步澄清:
一、发布时间与形式
已验证:
时间转换正确:太平洋夏令时(PDT,UTC-7)周三晚8点对应北京时间周四上午11点,与官方声明一致。
直播形式:发布会将在X平台直播,符合马斯克一贯的宣传风格。
待确认:
帐篷照片真实性:未找到直接证据证明xAI办公室搭建帐篷的照片,但行业常见项目冲刺阶段采用临时工作空间,逻辑上合理。
二、Grok4性能数据
1. HLE测试得分
已验证:
HLE基准定义:HLE(Humanity's Last Exam)是一个多模态、多学科的学术基准测试,包含2700道题目,涵盖数学、人文和自然科学,旨在评估模型的知识广度和推理能力。
Grok4得分:默认得分35%,使用推理技术后提升至45%,与用户提供的数据一致。
对比模型数据:
Claude Opus 4:HLE得分10.7%(用户提到11.25%,误差可接受)。
OpenAI o3:第三方实测得分约10%,低于用户提到的22.5%(可能为内部测试数据)。
结论:
Grok4的HLE得分显著高于竞争对手,但OpenAI o3的公开得分存在自测与第三方测试的差异,需注意厂商宣传与实际性能的可能差距。
2. 其他基准测试
已验证:
GPQA(研究生级物理和天文学问题):Grok4得分87-88%,略优于Gemini 2.5 Pro的86.4%,明显超过Claude 4 Opus的79.6%。
AIME 25(2025美国数学邀请赛):Grok4得分95%,大幅超越Claude 4 Opus的75.5%和OpenAI o3的88.9%。
SWE-bench(真实软件工程问题):Grok4 Code得分72-75%,略优于Claude Opus 4的72.5%和OpenAI o3的71.7%。
结论:Grok4在多项基准测试中表现优异,尤其在数学和编码能力上领先。
三、泄露事件与数据来源
已验证:
泄露事件可信度:36氪报道提到Grok4的跑分数据提前泄露,包括HLE、GPQA、AIME 25和SWE-bench的得分,与用户描述一致。
数据来源:泄露数据可能来自内部测试或早期访问版本,需等待官方发布确认最终性能。
四、总结与建议
发布信息:Grok4将于北京时间7月11日(周四)上午11点在X平台直播发布,时间无误。
性能数据:
HLE测试中,Grok4的45%得分确实为当前最高,但OpenAI o3的公开得分存在争议(用户提到的22.5%可能为内部数据)。
其他基准测试(GPQA、AIME 25、SWE-bench)数据真实,Grok4表现领先。
建议:关注7月11日的官方发布,以确认最终性能和功能细节。同时,注意厂商宣传数据与第三方测试的差异,理性评估模型能力。
发表评论 取消回复