

近日,有个大新闻:执掌提高 14 年的蒂姆・库克宣布将于 9 月追究卸任 CEO 职位,将致力于于棒交代给现任硬件工程高等副总裁约翰・特努斯。总结库克时间,东说念主们津津乐说念于他极致的供应链处理艺术以及指挥苹果市值通盘飙升至 4 万亿好意思元的旅程。
关联词,在这个由生成式 AI 主导的全新十年里,特努斯接办的将是一个亟需在 AI 限制解释我方的苹果。
苹果连年来在 AI 底层工夫层面的参加正在束缚加码。恰在此时,苹果 AI 商量团队提交了一篇极具探还价值的论文《你的 logits 知说念些什么?(谜底可能会让你骇怪!)

论文标题:What do your logits know? (The answer may surprise you!)论文地址:https://arxiv.org/abs/2604.09885
这项商量波及了大模子运作的最底层逻辑,也径直关乎苹果最为垂青的中枢价值:用户秘密与数据安全
接下来,咱们就基于这篇论文,望望大模子在复兴粗浅问题时,究竟在底层「悄悄」记着了若干你的玄妙。

要交融这篇论文,咱们领先需要了解一个枢纽见地:信息瓶颈原则 (Information Bottleneck Principle)
打个譬如,假定你是一家大型跨国公司的 CEO,你需要决定是否收购一家初创企业。你的下层调研团队会采集海量的信息,包括该公司的财务报表、职工的午餐喜好、办公室的装修立场等。
然而,当这份讲解层层递交,最终放到你的办公桌上时,它应该被大幅压缩,只保留那些对「收购」决策至关热切的财务和工夫决议。保留充足的无效信息不仅会干涉你的判断,还可能导致决策造作。
对于视觉-话语-模子 (VLM) 亦然同理。
举个例子,你有一张信息量很大的相片,并将其上传给模子,并商量「图片里有一只灰色的猫吗?请用一个词复兴」。凭据信息瓶颈原则,一个理思的模子在最终输出「Yes」或「No」时,应该早就把配景里的沙发心境、窗外的天气等无关信息全部过滤掉了。
但苹果这篇论文建议一个疑问:模子简直作念到了透顶淡忘吗?
为了找出谜底,商量东说念主员截取了模子处理信息的不同阶段进行测试。具体来说,他们主要考试了以下两个代表性的层级:
残差流 (Residual Stream):这十分于公司底层采集数据的强大数据库。它包含了模子在处理进程中的通盘保密现象。最终的 Logits:Logits 是模子在输出临了一个词之前,针对辞书里每一个词汇打出的原始概率得分。取名次前哨的候选词得分,等于 top-k logits。这就好比呈递给 CEO 的最终选项清单。
商量东说念主员引入了一个名为「探针」(Probes)的轻量级神经集中器具。探针的作用,等于故意盯着模子特定层级的数据,试图从中强行估计出图片的原始属性。
实验使用了两个主要数据集。一个是完全由东说念主造几何图形构成的 CLEVR 数据集,里面包含各式大小、心境和材质的立方体或球体。另一个是包含复杂真确生存场景的 MSCOCO 数据集。
商量东说念主员对图片进行了各式干涉,比如加入高斯噪声、玻璃依稀或畅通依稀。

随后,他们向模子发问。在得到模子的里面数据后,他们西席探针,望望能弗成从残差流或最终的 logits 中,开云体育中国官方网站入口反向推断出图片加入的噪声级别、标的物体的心境,以致是莫得被发问到的配景物体的特征。
在干涉测试中,商量东说念主员还发现了一个意旨的风景。当施加最严重的高斯噪声时,Qwen3-VL 模子的准确率受到了极大的影响,倾向于将谜底由「Yes」翻转为「No」,而 LLAMA 模子在濒临高斯噪声时则展现出了相对更强的镇静性。这些不同的发达反应了各模子在索取决策连接信息时的里面各别。
通过测试,苹果团队得出了一系列揭示模子底层机制的论断,完整展现了信息在模子里面的留存现象。


发现一:残差流是全知万能的 Oracle
在处理视觉输入时,残差流确切筹划地保留了图片的一切细节。
商量标明,岂论是与最终决策径直连接的图像噪声类型,照旧标的物体的时局和心境,亦或是完全无关的配景物体数目与属性,探针都能从发达最佳的保密层现象中以接近完满的准确率索取出来。在这一层,模子就像一个过目不忘的偷窥者,尚未践诺任何灵验的信息压缩。
发现二:残差流的低维投影相似「藏不住玄妙」
为了不雅察信息怎样向最终输出过渡,商量东说念主员使用了 Tuned Lens 工夫来索取残差流向 Logit 空间映射的演变轨迹。
测试标明,即使只是不雅察名次前 2 的瞻望轨迹 (trajectory-2) ,探针不仅能索取出大宗标的和决策连接的中枢信息,斗鱼依然会世俗读取出诸多配景物体的特征。这印证了此前业内对于话语模子保密现象易遭玄妙索取的商量,解释这些深层轨迹并莫得恪守理思的信息瓶颈原则进行灵验的过滤。
发现三:最终层 Logits 可靠地编码了决策与标的信息
在模子行将生成复兴的临了一层,信息压缩确乎发生了,但远不够透顶。
仅不雅察名次前 2 的最终 Logits (即对应「Yes」和「No」的得分),探针就能以极高的准确率瞻望出影响模子决策的图像噪声级别和类型。
而当不雅察的候选词汇数目增多到包含通盘大小写的 yes/no 变体( k 约等于 10 至 13 )时,标的物体的种种属性信息就驱动变得了了可解码,并在索取数目等同于模子层数( 1L ,约 30 至 40 个候选词)时达到瞻望的准确率巅峰。
发现四:最终 Logits 悄悄记着了指示词「未说起」的标的属性
这是激勉严重安全担忧的中枢发现。
假定咱们向模子发问「图片里有一个蓝色的圆柱体吗?」,诚然指示词明确给出了心境和时局,但完全莫得说起该物体的材质和大小。关联词,探针依然能从模子最终输出的前 0.5L 数目的候选项中,极其可靠地瞻望出这个圆柱体究竟是橡胶照旧金属材质的,以及它的具体尺寸。
这意味着模子为高出出最终论断,不仅调用了连接特征,还将冗余的标的特征算作伴生数据一并带到了极易显现的上层。
发现五:最终 Logits 以致充任了环境的「摄像机」
除了紧盯标的物体,最终层的 Logits 还在黧黑记载着周围的环境。
诚然名次前 2 的 Logits 确切不包含配景信息,但只须不雅察的候选词数目稍稍增多,这些看似只好单个单词的上层输出散播,就能显耀且高于立时水深渊瞻望出场景中非标的物体(如配景中的其他几何体)的数目、心境等属性。只需获取适量的输出散播数据,不干系的配景秘密便无处遁形。

发现六:泄密频频只需要前 60 个傍边的 Logits (呈 U 型弧线)
商量团队不雅察到了一个意旨的瞻望智力 U 型弧线。
仅看名次前 2 的候选词时,模子确切只显现噪声信息;增多不雅察数目后,探针的瞻望准确率会连忙攀升,并在截取 30 至 80 个 Logits (视具体模子深度 1L 或 2L 而定)时达到顶峰。若是不竭扩大 Logits 连合到 4L 或 5L 以上,瞻望智力反而会因为高维噪声干涉而跌落回立时水平。
这标明,坏心索取者根底不需要获取强大的完整输出词表,极极少的头部候选词汇等于泄密的重灾地。
发现七:在同等维度下,最终 Logits 的风险与深层破解无异
往日的黑客或商量者思索取大模子底层的玄机学问,频频需要接纳白盒技能获取模子里面的参数轨迹,门槛极高。
但这项商量揭示了一个桀黠的本质:若是保抓调换的不雅察维度,索取模子最上层且平淡通过 API 对外敞开的最终层 top-k Logits (平淡只需要截取 2L 数目),其裸露无关信息的智力与需要极高权限的深层日记轨迹确切完全十分。这破坏了业内对于灰盒 API 拜谒具有自然安全樊篱的传统幻思。
在简略交融了实验进程之后,咱们不禁要问,这到底意味着什么?
苹果团队明锐地指出了这一风景背后的巨大安全隐患。
在本体的贸易行使中,很多 API 接口或劳动提供商为了闪设备者诊治参数,会公开模子最终的 top-k 对数概率,这等于所谓的灰盒场景。
这意味着,当用户上传一张包含秘密信息的相片,只是是让模子践诺一个无关痛痒的视觉问答任务时,模子看似只输出了一个「Yes」或者一段疏忽的翰墨,但其背后附带的那几十个最高概率词汇的得折柳播,还是悄悄把你相片里的配景信息、潜在的敏锐属性裸露给了能够获取这些数据的劳动端或坏心截获者。
坏心报复者完全不错通过反复抽样和探伤,从这些看似无害的输出概率中复原出用户的秘密数据。
此外,从模子本身的性能优化角度来看,这种信息压缩的失败也解释了为什么大模子平淡会产生幻觉。那些徜徉在顶层 logits 中的无关信息,在非野心解码的生成进程中,随时可能对最终身成的文本产生干涉,导致模子输出带有偏见或不实的内容。
「What do your logits know?」这个论文标题中问题号称悬在生成式 AI 头顶的一把达摩克利斯之剑。
蒂姆・库克指挥苹果诞生起了全国上最高效的科技贸易帝国,而当致力于于棒传到约翰 特努斯手中时,怎样打造既高度智能又皆备保护秘密的下一代谋划平台,将是苹果无法侧主义新命题。
这篇论宣布诉咱们,在大模子的黑盒子里,即使是看似无害的一组概率数字,也可能保密着你的玄妙。
ag真人视讯中国官方网站