News & features
不改架构、无需3D数据,强化学习如何让视频模型真正“理解”3D世界?
随着AI技术的快速发展,很多视频基础模型已经能够生成画面精美、风格多样的短片,但一个根本性问题始终未被解决:尽管模型擅长生成看起来逼真的画面,却并没有真正理解三维世界。当镜头旋转、推进或环绕时,这些模型生成的视频中的建筑会扭曲变形,物体会凭空消失,空间比例也常常前后矛盾。换句话说,这些模型学会了二维像素的统计规律,却尚未建立稳定的三维空间认知。 为了解决这一问题,微软亚洲研究院推出了一种通过强化学…
“医生,我这个片子到底有没有问题?” 这可能是在医院的诊室里经常听到的一句话。面对一张复杂的医学影像,医生不仅要给出“是与否”的答案,更需要向患者解释诊断的依据:这个阴影是什么?为什么怀疑是肿瘤?具体的医学证据在哪里?而在面对疑难杂症或复杂病症时,还需要多个科室的专家联合会诊,才能形成更严谨、准确的诊断结论。 近年来,具备图像理解能力的视觉语言模型(VLM)开始在医疗诊断方面展现潜力。但现有的AI…
AVGen-Bench:面向下一代文生音视频模型的系统化评测框架
从文生图、文生视频,到文本生成音视频(Text-to-Audio-Video, T2AV),生成模型正在快速迈向更强的多模态表达能力。与此同时,一个关键问题也愈发突出:我们究竟该如何评测这些模型? 现有评测往往更关注单一模态的生成质量,难以同时衡量画面、声音、同步性、语义控制与复杂任务的执行能力。模型也许能生成“好看”的视频,却未必能做到音画一致;也许能生成“自然”的声音,却未必能准确遵循文本指令…
AI解码脑疾病,开启精准诊疗新可能
编者按:阿尔茨海默病、帕金森病等神经退行性疾病,长期面临早期难诊断、药物难入脑、病程难预测等挑战,困扰着无数患者与家庭。如今,人工智能的跨越式发展,正在为这一领域带来新突破。 微软亚洲研究院(上海)深耕人工智能与脑科学交叉领域,以三大创新推动神经疾病诊疗升级:通过多模态融合提升阿尔茨海默病早期信号识别能力,以人机协作打通脑靶向药物递送路径,并借助个性化模型实现帕金森病病程轨迹精准预测。 随着全球人…
Microsoft at NSDI 2026: Advances in large-scale networked systems
| Sujata Banerjee
Microsoft researchers share advances in building and operating large-scale distributed systems, spanning datacenters, networking, and the growing intersection with AI during NSDI ’26.
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。 在第六期节目中,我们邀请到微软亚洲研究院首席研究员李东胜博士,一同探讨 AI 与大脑的深层关联。以人脑为灵感而诞生的神经网络,究竟与大脑是单纯的模仿与被模仿关系,还是存在更深度的联结?AI 该如何向历经亿万年进化的人脑学习高效的…
Agent Lightning: Adding reinforcement learning to AI agents without code rewrites
| Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Dongsheng Li, Luna K. Qiu, and Yuqing Yang
By decoupling how agents work from how they’re trained, Agent Lightning turns each step an agent takes into data for reinforcement learning. This makes it easy for developers to improve agent performance with almost zero code changes.
Developers who are blind or have low vision have historically been limited to back-end programming, but new research suggests AI programming assistants are changing that in remarkable ways. A Microsoft Research Asia study found that developers who use screen readers…
王延森:所有科学发现都是人类情感需求的投射
编者按:当“理性”的科学发现与“情感丰富”的科研人员相遇,会发生怎样的化学反应? 在人工智能与神经科学的交汇处,微软亚洲研究院高级研究员王延森,正怀揣着浓厚的兴趣,聚焦人的需求与体验,展开一场关于智能本质的探索。他以非侵入式脑机接口为钥匙,试图破解人类感知与意图的神经密码;以脉冲神经网络为桥梁,探索人脑低能耗运行的奥秘;秉持“以人为本”的初心,让技术回归服务于人的本质。跟随王延森的脚步,我们将见证…