a tall building lit up at night

微软亚洲研究院

AI的下一次突破,会来自人类大脑吗?

已发布

过去几年的AI发展史,可以说是一部“暴力美学”的进化史。从百亿参数到万亿参数,从千卡集群到万卡集群,行业笃信一条法则:只要算力够大、数据够多,模型的边界就会被不断打破。正是这条 Scaling Law(规模法则),让众多模型一次次迎来能力质变。然而,当单次训练耗电持续攀升,当模型在深度推理中显露不足时,我们不禁要问:单纯依靠算力堆砌的发展模式,是否已经走到瓶颈?

作为经过数亿年演化形成的生物智能系统,人类大脑以极低能耗实现了复杂感知、学习、推理与决策。它依靠脉冲神经信号、动态神经网络调节以及多模态信息协同等机制,实现了效率与智能的平衡。这些特性也让越来越多的研究者将目光重新投向脑科学,希望从生物智能中寻找下一代人工智能的发展启发。

“生物智能高效、节能且具备强泛化能力的运行机制,是当前人工智能仍在探索的方向。”微软亚洲研究院首席研究员李东胜表示,“我们希望从大脑机制中寻找灵感,跳出单纯依赖算力和数据扩张的发展路径,从信息编码、视觉计算、网络训练和脑机交互等方向探索脑启发智能的可能性。

沿着这一思路,近年来微软亚洲研究院陆续开展了一系列跨学科研究。这些成果融合脑神经科学与AI技术,不仅为业界探索脑启发式人工智能提供了全新思路,也助力人工智能技术反哺神经科学领域的研究。

脑启发的AI:重构感知世界的内在逻辑

人类能够轻松识别复杂环境中的目标,即使物体被部分遮挡、光照发生变化,甚至只露出局部轮廓,大脑依然能够快速将分散的信息整合起来,形成完整认知。而当前主流视觉 Transformer(ViT)模型采用单一形式完成图像信息编码,难以实现高效的特征绑定,面对复杂多变的输入场景也缺乏自适应调节能力。

针对这一痛点,微软亚洲研究院的研究员们从脑科学中汲取灵感,提出了 KoPE 相位编码算法并设计了具备强递归兴奋与反馈抑制特性的稳定超线性网络,试图从底层逻辑上革新AI的视觉处理方式。

KoPE相位编码:让AI更好地理解被遮挡物体

生物大脑的信息传递并非单一模式。除神经元放电强弱(幅值)外,神经振荡相位也是核心编码维度。不同频段脑电波依靠相位同步,自动整合零散的同类特征,也是人类能够轻松识别被遮挡物体的重要机制,而特征绑定正是AI需要解决的一个难题。

传统的视觉模型在面对物体遮挡或画面碎片化时,极易出现特征混淆。KoPE(Kuramoto Oscillatory Phase Encoding)算法创新性地引入了 Kuramoto 振荡动力学,相当于给主流的视觉 Transformer 模型增加了具备动态演化能力的“相位维度”。

具体而言,KoPE 让模型能够结合幅值与相位双重维度完成信息编码,利用相位同步实现同源特征的自动绑定,以此判定特征归属同一目标;同时将相位差异引入注意力机制,进一步优化特征提取逻辑。

实测结果显示,在保持识别精度不变的前提下,KoPE 仅需传统模型80%的训练数据、50%的参数量与计算开销,运算成本大幅下降。更重要的是,它显著改善了遮挡场景下的识别错误问题,弥补了主流模型在结构化特征处理上的不足。

Diagram
图1:KoPE示意图。模型在原有token表征之外引入相位信息,这些相位将通过Kuramoto动力学沿网络层深度进行更新。相位以复数旋转的形式嵌入交互式注意力模块,而Kuramoto动力学则基于从token表示中推导出的数据自适应耦合关系。

相关论文:Kuramoto Oscillatory Phase Encoding: Neuro-inspired Synchronization for Improved Learning Efficiency (ICML 2026)

论文链接:https://arxiv.org/abs/2604.07904 (opens in new tab)

SSN动态编码:让AI灵活调节工作模式

人类观看画面时,大脑自带一套极其聪明的“节能策略”:面对清晰、高信噪比的视觉输入,大脑仅激活少量视觉神经元,以最低消耗完成任务;而在昏暗、噪声干扰较强的场景中,则会调动大量神经元协同工作,保障识别精度。受此启发,研究员们提出设想,能否让人工神经网络也学会这种动态机制,实现识别性能与计算能耗的自适应平衡?

过往研究发现,大脑皮层中广泛存在的侧向连接是视觉感知的核心载体,但主流人工视觉模型几乎未显式引入这类结构。针对这一研究空白,研究员们设计并训练出具备强递归兴奋与反馈抑制特性的稳定超线性网络 SSN(Stabilized Supralinear Networks),尝试让AI像大脑一样,根据任务难度动态调整自身的工作状态。

SSN 网络能够根据输入条件,在两种不同的信息处理模式之间自动切换。当图像对比度较高、目标特征清晰时,网络采用更加节能的稀疏编码模式,仅激活少量关键神经元完成识别;而当图像受到噪声干扰、信息质量下降时,网络则会切换至群体编码模式,通过更多神经元协同工作,提高对复杂环境的适应能力。

Diagram
图2:SSN概述。基于不同输入条件下的性能与成本权衡,在群体编码与稀疏编码之间进行动态切换。

这种动态的性能-能效权衡机制,使得人工神经网络在面对不同质量的输入时展现出远超传统模型的适应性与鲁棒性。实验结果证明,在各类图像失真条件下,SSN 的分类精度均明显优于经典稀疏编码和独立成分分析(ICA)模型。这充分验证了兴奋-抑制(E-I)侧向连接的核心价值,更为设计高灵活性、高适应性的新一代神经网络搭建了技术桥梁。

相关论文:Stabilized Supralinear Networks Learn to Switch Coding Strategies Balancing Cost and Performance (ICML 2026)

论文链接:https://icml.cc/virtual/2026/poster/62577 (opens in new tab)

从类脑学习到意图理解:迈向更自然的人机协同

如果说 KoPE 和 SSN 尝试让AI像大脑一样感知世界,那么要真正将类脑智能推向现实应用,还面临许多问题。例如,AI能否像大脑一样高效学习,又能否真正理解人的意图?

针对这两大难题,微软亚洲研究院分别从训练逻辑和交互逻辑给出了破局思路:OPZO 算法优化了类脑网络的底层训练模式,而 EgoBrain 数据集与 Brain-TIM 框架则搭建起了脑电与视觉融合的交互体系,拓宽了类脑智能的应用边界,为神经形态计算与脑机接口的发展注入了新动能。

OPZO破解脉冲网络梯度难题,实现在线“片上学习”

在迈向下一代类脑计算的进程中,脉冲神经网络(SNNs)因其高度节能的特性而备受瞩目。然而,传统的脉冲神经网络仅传输0、1形式的离散脉冲信号,激活函数不具备可导性,导致传统的梯度反向传播(BP)机制在这里水土不服。这不仅不符合人脑的学习规律,也无法适配神经形态芯片的硬件架构。

为破解这一难题,研究员们提出了在线伪零阶训练算法 OPZO(Online Pseudo Zeroth Order)。该算法摒弃了繁琐的反向传播流程,仅需单次前向传播,通过向网络注入噪声,结合自上而下的直接信号完成空间信用分配。这一创新机制,成功规避了传统反向传播算法中权重对称、层级割裂的固有问题;同时依托伪零阶公式与动量反馈连接,缓解了传统零阶优化方法估计方差较大的问题。

这套贴合生物特性的在线训练方案,既为脉冲神经网络在边缘侧芯片上的落地铺平了道路,也为完全在线的“片上学习”提供了切实可行的路径。

Diagram
图3:不同训练方法的示意图。(a) 采用追踪轨迹进行时间权重分配的SNN在线训练。(b-e) 不同的空间权重分配方法。(b) 采用对称权重的反向传播(BP)结合自适应梯度(SG),逐层传播误差。(c) DFA通过固定的随机连接将误差信号直接从上层传播至中间层;(d) 单点零阶方法在前向传播期间添加扰动,随后将损失信号传递至中间层。(e) OPZO方法利用基于干扰向量的动量反馈连接,通过自上而下的连接将误差信号直接传播至神经元。

相关论文:Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks (ICLR 2026)

论文链接:https://iclr.cc/virtual/2026/poster/10011366 (opens in new tab)

EgoBrain+Brain-TIM:视觉与脑电融合,让AI理解人类意图

一旦算法与硬件的协同逐步成熟,人机交互与意图理解,便成为类脑智能落地的新难题。即便依托先进的视觉模型,AI仅凭摄像头画面,只能识别人类的外在行为,却难以读懂行为背后的真实意图与认知状态。例如同样是饮用绿色液体,只靠视觉无法区分是苦瓜汁还是黄瓜汁,但在人脑中,两种味觉体验会触发完全不同的神经响应。

基于视觉与脑电信号的天然互补性,研究团队提出了全新的研究假设:融合视觉与脑电信息,能否让AI更深层、更精准地理解人类行为与意图?

为验证这一想法,研究员们打造了全球首个大规模、时序严格对齐的EgoBrain数据集及配套的Brain-TIM多模态融合框架。该数据集收录了40名受试者总计61小时的同步记录(32通道脑电图+头戴式第一视角视频),覆盖工作、娱乐、学习、饮食四大类共29项日常动作。为了检验模型的泛化能力,研究员们还设计了极具挑战性的“跨受试者”与“跨环境”评测基准。Brain-TIM框架通过模态专属嵌入与精准时序建模,高效融合视觉、脑电两类互补模态信息。

Diagram
图4:EgoBrain数据集及实验设置。(a左)配备可调节照明和模块化工作站的声学隔离室,内含标准化交互对象。(a右)便携式设备配置,头盔式GoPro摄像机和Emotive FLEX 2凝胶脑电头盔。(b)高保真第一人称视角视频记录手-物体交互过程及32通道脑电信号。(c)受试者根据屏幕文字提示执行“阅读书籍”动作。(d)从指令显示(玩立方体)到物体交互及完成确认。

实验数据显示,在难度最高的跨环境推理任务中,双模态融合方案的动作识别精度,较纯视觉基线模型提升3.3%;当视觉输入因遮挡失效时,脑电信号仍可稳定、精准解读人类真实意图。这表明,视觉与脑电的多模态融合效果优于传统单模态方案,展现出多模态脑机接口在复杂认知交互场景中的潜力。尤其在视觉信息匮乏、模糊的场景中,例如饮用动作、书写与绘画区分等,脑电信号能够提供关键补充信息,有效弥补视觉感知的短板。

相关论文:

EgoBrain: Synergizing Minds and Eyes For Human Action Understanding (ICLR 2026)

论文链接:https://arxiv.org/abs/2506.01353 (opens in new tab)

双向赋能:AI与脑科学的协同未来

“生物智能与人工智能虽然载体不同、实现方式不同,但在智能的本质层面是相通的。大脑经过亿万年演化形成的运行机制,蕴含着大量值得借鉴的智慧。”李东胜表示。

从视觉感知、网络训练到意图理解,微软亚洲研究院在类脑智能领域的探索并非单向的“脑启发AI”,而是形成了双向赋能的研究闭环:一方面借鉴大脑的高效计算逻辑优化人工智能,另一方面依托AI模型反向解析、验证大脑的运行机理。而这也是团队更深层的研究愿景,希望跳出算力堆砌的传统增长范式,探索人工智能可持续发展的下一次浪潮。

不过目前,人类对大脑的认知仍十分有限。也正因此,类脑智能既充满挑战,也有着巨大的创新空间。研究员们也希望沿着脑启发智能的方向持续探索,推动AI与神经科学双向赋能、协同演进。

Kuramoto Oscillatory Phase Encoding: Neuro-inspired Synchronization for Improved Learning Efficiency (ICML 2026)

论文链接:https://arxiv.org/abs/2604.07904 (opens in new tab)

Stabilized Supralinear Networks Learn to Switch Coding Strategies Balancing Cost and Performance (ICML 2026)

论文链接:https://icml.cc/virtual/2026/poster/62577 (opens in new tab)

Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks (ICLR 2026)

论文链接:https://iclr.cc/virtual/2026/poster/10011366 (opens in new tab)

EgoBrain: Synergizing Minds and Eyes For Human Action Understanding (ICLR 2026)

论文链接:https://arxiv.org/abs/2506.01353 (opens in new tab)