非营利研究机构FutureHouse近日发布名为“科斯莫斯”(Kosmos)的AI超级科学家系统,其单次运行12小时即可完成相当于人类研究员团队半年的科研工作量。
OpenAI首席执行官山姆·奥特曼对此评价称:“这太令人兴奋了!我预计未来我们会看到更多类似项目,这将是人工智能最重要的应用方向之一。”

运行12小时顶人类半年工作量 准确率达79.4%
FutureHouse早期开发的AI科学家“罗宾”存在明显局限,尤其在处理海量信息方面表现不足。受当时语言模型上下文长度的限制,它在推理过程中难以实现多层次的逻辑推演,这直接影响了其科学发现的深度与复杂性。
科斯莫斯的重大突破,源于其采用的“结构化世界模型”。这一架构创新使系统能够高效融合来自数百个智能体轨迹的信息,即使在处理数千万token规模的庞大数据时,仍能始终保持与核心研究目标的高度一致。

图:AI超级科学家科斯莫斯的运行原理
科斯莫斯采用自主循环工作架构,可以并行启动文献检索与数据分析任务,持续更新内部知识图谱,并智能规划下一轮探索方向。
据统计,科斯莫斯单次运行平均完成166轮数据分析和36次文献综述迭代,所有结论均能追溯到具体的代码片段或原文出处,支持完整审计验证。
在持续运行12小时,该系统能够阅读1500篇学术论文,生成并执行4.2万行分析代码,并输出完整可溯源的科研报告,其综合处理能力已超越目前已知的所有智能体系统。

图:科斯莫斯单次运行可阅读1500篇论文、生成4.2万行代码
在实际测试中,科斯莫斯展现出远超前代系统的分析效能。参与评估的研究人员普遍反馈,该系统半天内完成的工作量,相当于他们个人六个月的研究投入,且输出结论的准确率达到79.4%。
FutureHouse已经启动科斯莫斯的商业化运营,单次运行定价约200美元,并为学术用户提供免费额度。
七大发现:复现三大试验与四大创新
科斯莫斯已与多家学术机构合作,在神经科学、材料科学、统计遗传学等多个前沿领域取得了七项具有实质意义的发现,其中包括独立复现三项尚未发表的研究,包括确认核苷酸代谢为低温脑处理关键通路,并发现钙钛矿太阳能电池60g/m³以上绝对湿度失效阈值。
发现一:利用代谢组学数据,科斯莫斯独立验证了一份尚未发表手稿中的关键结论,确认核苷酸代谢是低温小鼠大脑中最主要的改变通路。值得关注的是,相关论文预印本是在科斯莫斯完成分析后才正式发布。
发现二:在材料科学领域,科斯莫斯复现了一份训练数据截止日后才发表的预印本结论,准确识别出热退火过程中绝对湿度是决定钙钛矿太阳能电池效率的关键因素,包括发现约60克/立方米这一导致器件失效的临界阈值。
发现三:科斯莫斯成功推导出描述跨物种神经元连接性的数学规律。但需要说明的是:相关论文预印本虽在模型训练截止前发表,但科斯莫斯在运行时并未访问。
更令人振奋的是,科斯莫斯在另外四个方向上实现了原创突破:
发现四:通过整合公开的GWAS和pQTL数据,科斯莫斯完成孟德尔随机化分析,为"高水平循环SOD2(线粒体超氧化物歧化酶)可能因果性改善心肌纤维化"提供了新的统计证据,这将小鼠模型中的已知机制向人类临床应用推进了一步。
发现五:基于多组学和统计遗传学数据,科斯莫斯提出了全新的分子机制,揭示特定SNP(单核苷酸多态性)可能降低2型糖尿病发病风险。
发现六:利用阿尔茨海默病患者的蛋白质组数据,科斯莫斯开发出创新分析方法,成功解析了神经元内tau蛋白积累的分子事件序列。
发现七(临床突破):在研究"衰老过程中神经元脆弱性"时,科斯莫斯通过对小鼠单核转录组数据的大规模无偏探索,发现内嗅皮层神经元中,磷脂翻转酶基因会随年龄增长表达下降。这可能导致细胞表面"吃掉我"信号暴露,引发小胶质细胞清除这些脆弱神经元。更重要的是,研究人员在人类AD患者的独立单细胞RNA-seq数据中验证了这一发现,确认翻转酶表达下降与Braak II期tau病理出现同步。