当前位置：首页 > 绿巨人快讯 > 正文内容

你的AI越来越蠢？因为它学会见人下菜碟了

admin4个月前 (09-17)绿巨人快讯78

以下文章来源于差评前沿部，作者江江

差评前沿部.

站在科技的前列线，关注AI、机器人等前沿科技。

大伙有没有感觉，现在各家的AI，好像越来越蠢了？

事情是这样的，前几天我心一狠，给 OpenAI 充了个200刀的会员，想着试试现在的 ChatGPT 强到啥程度了。

结果，我给他丢了个算术题，求解 5.9 = x+5.11，哥们直接给我算崩了。。

《这题真是幼儿园级别》？

堂堂200刀人工智能，还不如我20块的计算器啊？

但，我记得GPT-4刚出那会儿，我还让它算过高数啊？难道模型升级还会砍智力吗？于是我给它丢了个微寄分过去。

结果，哥们还会换元法，一通操作下来，看着还真没啥问题，评论区的大学生可以验验真假。

所以，两次算数用的都是GPT-5，咋还给我见人下菜碟？

本以为是OpenAI飘了，结果我上网一查发现，这事儿还不是 GPT 一家干的，甚至有点行业趋势的意思。

前几天美团发布的开源模型LongCat，其中就提到自己用一个路由器提高效率。

DeepSeek V3.1发布时，也说过自己一个模型可以有两种思考模式。

而同样是AI巨头的Gemini，在Gemini 2.5 flash发布时，就引入了相似的模式，让模型自己决定怎么用脑。

总的来说，大伙都在让自己的模型“该思考时再思考”，该偷懒的时候偷懒。

这么做的动机，也很好理解，那就是省钱。从OpenAI发的资料来看，通过这种“让模型自己决定要不要思考”的方式省掉的tokens还真不少，GPT5输出token数就少了50%-80%。

DeepSeek官方发的图表中也显示，新模型tokens消耗也下降了大概20%-50%。

省一半token，这是什么概念？咱普通人可能体会不到，但对OpenAI这样的大公司来说，可能就是一大笔开销。

去年央视就有报道，ChatGPT每天耗电超过50万度，在如此庞大的基数下，省出来的部分，够一个上万户家庭的小镇用上一天了。

这也难怪奥特曼在网上跟网友说，你们跟GPT说声谢谢都要花我上千万美元。之前的高级模型，一句谢谢也能让它思考几分钟，还真有点浪费在里面。

所以，AI这看题下菜的能力，到底咋练成的呢？OpenAI 没公布具体原理，但 2023 年有篇论文叫《Tryage: Real-time, Intelligent Routing of User Prompts to Large Language Models》，专门分析了这个问题。

在GPT-3.5出来那阵，大模型还不会自己调节思考能力，每个问题都能让AI无限烧脑。

为了提高效率，研究者就想出来了一种叫“感知路由器”的模块，它本质上，就是在混合模型里塞了一个小巧的语言模型。

在前期训练时，路由器就和刷题一样，对“使用哪个模型最佳”，做出自己的预测。

哪个模型适合深度研究，哪个模型适合快速思考，当然有标准答案。系统就会将这个预测分和标准答案进行比对，计算出两者间的误差。接着通过微调路由器内部的参数，来减小这个误差。

当它刷数百万道题之后，就逐渐学会怎么给你的提示词，分配合适的模型了。

当一个新提示词进来，AI内部的路由小模型就会先扫一眼，评估一下这问题配不配我动脑。因为路由器比较轻量级，所以这个评估过程几乎是瞬时的。

而除了OpenAI这法子，AI还有一种偷懒的思路，那就是把不同的token，导向不同的神经网络。

像美团的LongCat就采用了这种方法，从报告来看，他们采用了一种叫“零计算专家”的机制。

通常来说，在你输入提示词之后，你的提示词会拆分成一个又一个的tokens，交给模型内部的神经网络去处理。

但Longcat在处理之前，会先把它交给一个叫“Top-k Router”小路由器，它就像一个流水线上的调度员，在收到token的时候，会判断这个token处理起来是复杂还是简单。

同时在它的内部，有很多不同分工的神经网络，我们把它们叫做专家。

这些专家，有的喜欢做难题，有的喜欢做简单题，当然，也有摸鱼界专家。

比如“请用Python写一个快速排序”这句话，“Python”和“快速排序”就是重点，“请”和“一个”就没那么重要。

像这些没啥用的token，咱就可以丢给那些摸鱼大王了，因为它们根本不需要怎么处理。这下，你就知道“零计算专家”这个名字是怎么来的了。

这也能解释为啥大伙都在吹这个模型“太快了”。

总的来说，这种设计对模型厂商来说算好事，不仅省钱还能提升训练效率。

从用户角度讲，模型更快了，价格更便宜了。但我感觉，这玩意是把双刃剑。如果用不好，还真是实打实影响用户体验。。

记得GPT-5刚上线，这路由器就翻车了。用户发现自己怎么都调不出来它的思考模式，问什么它都懒得思考，像摆烂一般只会“啊对对对”，连“blueberry里有几个b？”都数不明白。

而且，这也算剥夺了用户的选择权。OpenAI一刀切掉了4o，搞得很多网友在网上哭诉说自己失去了一位朋友。

这又让奥特曼又暂时为Plus用户把GPT-4o端了上来，并允许Pro用户继续访问其他旧模型。

那这个操作，不就变相说明，在发布的时候，这个路由模型就没调好嘛。

咱再说LongCat，它的确很快，但在思维上限上，还是打不过其他大模型的。像我就同时给LongCat和DeepSeek丢了一个同样的问题：什么叫“但丁真不是中国人，但丁真是中国人”？

LongCat这边刷刷出答案，但没解读出来这句话的幽默感；而DeepSeek虽然慢了点，笑点解析得却很清楚。

LongCat

DeepSeek

就像我问你114*514是什么，你说当然是58596啊，算得确实很快啊，但其实我只想让你配合我搞抽象。

当然，对路由器罢工，咱也有些解决办法，那就是在提示词里加入“深度思考”“ultra think”这些字眼，路由器收到后会尽量调用更强大的模型。

不过也只能说治标不治本了，多用几次可能就叫不醒了。。

这就说明 AI 确实罢工了，咱只能等几个小时再来了。

所以说到底，方向是好的，技术是新的，但现阶段的体验也确实只是“还行”的。当然，大模型成长速度比我们想的更快，咱还能坐等更快更好的模型出世。

撰文：不咕

编辑：江江 & 面线

美编：萱萱

图片、资料来源：

LongCat、DeepSeek、Reddit、Chat GPT、央视网

部分图源网络

原标题：《你的AI越来越蠢？因为它学会见人下菜碟了。》

阅读原文

返回列表

上一篇：迪士尼“探险号”亚洲首航延期，将提供50%折扣补偿

下一篇：从数联古今到“智”绘文明文化遗产“云”上焕新

办公室打屁股在线阅读,职场激情与惩罚的诱惑

你有没有想过，在忙碌的办公室生活中，偶尔来点轻松的调剂？没错，就是那种让你在紧张的工作之余，轻松一笑的“办公室打屁股”故事。今天，就让我带你一起走进这个充满趣味的世界，感受一下那些让人捧腹大笑的瞬间吧...

公交车站避雨亭,人性化设计，守护市民出行时光

想象在一个细雨绵绵的午后，你站在公交车站，望着那座小小的避雨亭，心中涌起一股暖意。这个小小的亭子，承载了多少人的期待与温暖，今天，就让我们一起走进公交车站避雨亭的世界，探寻它的故事。避雨亭：城市的守护...

史上最强炼气期一万层,突破一万层，探寻无上炼气奥秘

你有没有听说过那个让人热血沸腾的传说？那就是史上最强的炼气期，一万层！没错，就是一万层！想象每突破一层，就能感受到天地间的灵气在你体内涌动，那种感觉，简直就像是在攀登一座无形的山峰，让人欲罢不能。今天...

剑来大斌下部免费听,免费畅听，揭开神秘世界的奇幻篇章

你有没有听说最近超级火爆的《剑来》大斌下部免费听的消息？没错，就是那个让无数书迷翘首以盼的续集！今天，就让我带你一探究竟，看看这部作品究竟有何魅力，为何能让粉丝们如此疯狂。《剑来》大斌下部免费听，这四...

国际新闻今日头条,今日头条聚焦全球热点事件

亲爱的读者们，今天我要带你一起探索一下国际新闻的海洋，看看今天有哪些新鲜事儿在全球范围内引起了轰动。准备好了吗？让我们一起跳进这个五彩斑斓的世界，看看都有哪些亮点吧！全球疫情动态新冠病毒仍在全球肆虐，...

稳增长政策显著发力将对后续进口形成支撑｜宏观晚6点

宏观要闻发改委将加大人工智能领域金融和财政支持力度国家发改委在人民日报刊文指出，将从构建创新活跃的智能经济、强化人工智能发展的要素支撑、完善人工智能应用的创新发展环境等方面着手，支持深...

绿巨人app官网