搬砖小组 - 摸鱼不成 默默搬砖

搬砖小组说的“大招”指的是GPT-5.2的发布。GPT-5.2的性能再次刷榜,尤其在知识型工作任务评估集“GDPval”上的表现,预示着AI将快速融入更多业务场景。

这几天市场期待的GPT-5.2今天凌晨果然发布了,这次性能非常强,从各个测试集的表现来看,都力压Gemini 3,再次实现刷榜。

有非常多的媒体都对这些数据做了罗列,我们这里就不多说了,下面我们讲一下咱对这个事的理解。

当前我们关注大模型的能力不再只是关注测试集,更看重在应用上,能融入更多业务场景才是重要的。真正能融入业务场景代表着大模型在某个垂类能力的深度,而覆盖更多的场景则是需要广度,这里我们都分别展开聊一下。

深度层面,大模型现在比较强的就是在编程上,绝大部分的工程师都已经开始用大模型来写代码,根据海外的统计,AI辅助生成的代码比例已经达到了60%以上,这是已经实现了绝对的深度融合。

不过AI在代码的能力上,我们感觉这一次的变化其实提升并不是很大,虽然还没有推出专门为编程优化的Codex版本,但从数据和反馈上我们可以感觉到,似乎还是比竞争对手Claude弱了一些。

另外从这次官方披露的性能上,GPT-5.2相比5.1的性能提升是有限的。例如正确率从53%提升到56%,消耗的token数得增加120%,这就是典型的“事倍功半”,感觉在大模型在编程能力上似乎已经快触碰到天花板了。

各大模型测试

所以这一次GPT-5.2最重要的更新点并不是在深度,而是在广度上。有一个测试集叫做“GDPval”,这是一项覆盖44个职业、用于衡量明确知识型工作任务的评估。50%是专家水平,而这一次GPT-5.2 Thinking已经达到了70%,相比GPT-5提升了接近一倍。

各大模型测试

这个数据还是非常超出我们预期的,记得前几个月,大家总说AI很难落地到各项业务中,确实是因为智能水平不够,但GPT-5.2的发布改变了这个状态。我们可以预见到,未来一年非常多的业务都能够快速与AI进行融合。

从这延伸出去,我们可以看到几个趋势。

一是算力的需求会持续增加,确定性进一步增强,今天市场去反映光的弹性也是可以理解的,这一次GPT-5.2的发布无疑是加强了这个趋势。

二是很多公司都会积极拥抱这个趋势。昨天迪士尼和OpenAI的合作其实就是一个典型案例,大家之前会担心AI批量创造影视以后,迪士尼的IP价值会被削弱,但这个合作告诉大家,公司的价值反而可能是会被加强的。

三是各行业可能都会被比较快速地改造。我们今天在直播的时候跟大家聊了一个事,当年电灯电线普及后,做煤油的大佬都退出财富榜了,最后只能退守航空煤油这一个比较小的领域;因为内燃机的发明,马也全面退出运输领域,现在大家看到马,要么是游玩项目,要么是赛马。

在巨变下,命运曲线是断崖式的,今天我们看AI,很可能就还停留在“马完全没感觉”的那一段。这几年大家做投资,虽然口头都会挂着“AI”,但实际上能把这个事深入融合到工作中的人少之又少,越早拥抱这个趋势,在未来会越有竞争力。

后续国内AI这边的变化也会比较大,下周先看豆包模型的能力更新,或许会有比较大的提升,期待一下~

……

1、基金销售考核大变革:投资者盈亏成核心指标。最近我们看到整个基金行业在持续进行改革,各个环节都是朝着与投资者的利益相绑定的方向发展,长期上看这种转变对基民来说肯定是好事。不过这一系列的改革会在中短期对整个市场的生态产生比较大的变化,具体会怎么变我们现在还不好说,边走边看吧。

2、知情人士:光和谦成公司股东后续将推动增资,硅料产能规划保留不超过150万吨。光伏的反内卷动作在持续推进,龙头公司能一起组起来成立公司确实是比较难的,这算是一个历史性的突破节点。

这一次硅料产能保留不超过150万吨,算下来大概是700GW的组件产出,对比今年580GW左右的组件产,供给过剩也就不到20%了,确实比之前的大幅过剩的状态好了很多。后续行业要走出来还得看需求增长,不过现在看并没有很大弹性。

3、之前我们总是跟大家聊《虞美人》这首词,最近我们跟同行小伙伴聊的是苏轼的《满庭芳》,是“蜗角虚名”。我们处在一些烦恼事物之中的时候,感受总是比较差的,但用终极的思维去看待生活,很多事情就已经变得无关紧要了。

蜗角虚名,蝇头微利,算来著甚干忙。事皆前定,谁弱又谁强。且趁闲身未老,尽放我、些子疏狂。百年里,浑教是醉,三万六千场。

思量。能几许,忧愁风雨,一半相妨,又何须,抵死说短论长。幸对清风皓月,苔茵展、云幕高张。江南好,千钟美酒,一曲满庭芳。💸

comments powered by Disqus