近日, OpenAI 与生物技术初创公司 Retro Biosciences 公布了一项合作成果,展示了人工智能在生命科学领域的巨大潜力。通过一个专门为蛋白质工程设计的 AI 模型 GPT-4b micro ,研究团队成功将诱导干细胞重编程关键标志物的表达效率提升了超过50倍。
这项研究的核心聚焦于“山中因子” (Yamanaka factors) ,一组因其在细胞重编程领域的开创性作用而获得诺贝尔奖的蛋白质。这些蛋白质能将已分化的成年细胞(如皮肤细胞)逆转为具有发育成几乎任何组织潜力的“诱导性多能干细胞” (iPSCs) 。这一能力为治疗失明、糖尿病、不孕不育,甚至解决器官短缺问题开辟了新的途径。
然而,传统山中因子的应用效率极低,通常只有不到 0.1% 的细胞能成功转化,整个过程耗时三周以上。尤其是在处理来自年长或患病捐献者的细胞时,效率会进一步下降。此次,经由 AI 重新设计的蛋白质变体不仅显著提高了效率,还表现出更强的 DNA 损伤修复能力,这意味着其在细胞年轻化方面具有更大潜力。
这项于2025年初步取得的发现,现已通过在多种捐献者、细胞类型和递送方法中的重复实验得到验证,确认了所产生的 iPSC 细胞系具有完全的多能性和基因组稳定性。
为蛋白质工程量身打造的实验性 GPT 模型
为了验证 AI 能否加速生命科学研究, OpenAI 构建了一个名为 GPT-4b micro 的定制模型。该模型是 GPT-4o 的一个微缩版本,经过特殊训练,使其具备了深厚的生物学知识,尤其是在蛋白质工程领域的可控性和灵活性。
与大多数蛋白质语言模型不同, GPT-4b micro 的训练数据不仅包含蛋白质序列,还融合了生物学文本和标记化的 3D 结构数据。训练数据经过特别丰富,包含了蛋白质的文本描述、共同进化的同源序列以及已知的相互作用蛋白质组等上下文信息。这种方法使得模型能够根据特定属性的提示生成序列,并且能同样出色地处理结构化蛋白质与“本质无序”的蛋白质。山中因子正是后者,它们的活性依赖于与多种结合伴侣形成大量瞬时相互作用,而非固定的单一稳定结构。
通过这种方式,模型的有效上下文长度远超独立序列的限制,在推理过程中可处理高达 64,000 个 token 的提示,这在蛋白质序列模型中是前所未有的。
人工智能辅助改造 SOX2 与 KLF4
山中因子由四种蛋白质组成: OCT4 、 SOX2 、 KLF4 和 MYC (简称 OSKM) 。直接通过修改蛋白质序列来优化它们是一项艰巨的任务。以 SOX2 (包含317个氨基酸) 和 KLF4 (包含513个氨基酸) 为例,其可能的变体数量高达 10 的 1000 次方。
传统的“定向进化” (directed evolution) 方法,即一次只改变少数几个氨基酸残基,只能探索其中极小一部分可能。相比之下,AI 可以探索更广阔的设计空间。 Retro Biosciences 的团队首先建立了一个湿实验室筛选平台,然后利用 GPT-4b micro 生成了一系列名为“RetroSOX”的候选序列。
结果令人惊讶:在筛选中,超过 30% 的模型建议序列在表达关键多能性标志物方面优于野生型 SOX2 ,尽管它们的氨基酸序列平均差异超过100个。而在传统筛选中,命中率通常低于 10% 。
接下来,团队将目标对准了 KLF4 。模型生成的“RetroKLF”变体中,有14个优于 RetroSOX 筛选中的最佳组合,命中率接近 50% 。
当把顶级的 RetroSOX 和 RetroKLF 变体结合使用时,效果最为显著。在三项独立实验中,成纤维细胞的早期和晚期多能性标志物均急剧上升,且晚期标志物的出现比使用野生型 OSKM 混合物早了数天。碱性磷酸酶 (AP) 染色等进一步测试也证实,这些细胞集落不仅表达了晚期标志物,还表现出强大的 AP 活性,这是多能性的有力指标。
为了探索临床潜力,研究团队还测试了不同的递送方法(mRNA 替代病毒载体)和另一种细胞类型——来自三名50岁以上中年捐献者的间充质基质细胞 (MSCs) 。仅7天内,超过 30% 的细胞开始表达关键多能性标志物;到第12天,超过 85% 的细胞激活了包括 OCT4 、 NANOG 在内的内源性干细胞标志物。对这些细胞进行的核型分析显示其染色体结构正常,证实了其基因组稳定性,适合用于细胞治疗。
增强的 DNA 损伤修复能力
除了提高重编程效率,研究人员还探索了这些工程变体在细胞年轻化方面的潜力,特别是修复 DNA 损伤的能力,这是细胞衰老的典型标志之一。
在 DNA 损伤分析中,经过基因毒性化学物质处理后,表达 RetroSOX/KLF 混合物的细胞显示的 DNA 双链断裂标志物(γ-H2AX 信号)明显低于使用标准 OSKM 或对照组的细胞。这表明,AI设计的蛋白质变体能更有效地修复 DNA 损伤,为延缓细胞衰老提供了新的可能路径。
perspectivas futuras
这项工作清晰地表明,一个针对特定领域的 AI 模型能够在集中的科学问题上多快地取得突破性成果。当研究人员将深刻的领域洞见与语言模型工具相结合时,曾经需要数年才能解决的问题,现在可能几天内就能取得进展。
当然,这项研究仍处于早期阶段,从实验室走向临床应用前,仍需对安全性和长期效果进行审慎评估。但它无疑为 AI 在生物医药领域的应用打开了一扇新的大门,预示着一个由 AI 驱动的个性化医疗和再生医学新时代的到来。