先日、OpenAIとバイオベンチャーのRetro Biosciences社は、ライフサイエンスにおける人工知能の大きな可能性を示す共同研究の成果を発表した。タンパク質工学のために特別に設計されたAIモデル、GPT-4b microを用いて、研究チームは幹細胞のリプログラミングを誘導するための主要マーカーの発現効率を50倍以上向上させることに成功した。
この研究の中心は、細胞初期化における先駆的役割でノーベル賞を受賞したタンパク質群である山中因子に焦点を当てている。これらのタンパク質は、皮膚細胞などの分化した成体細胞を、ほとんどすべての組織に発生する可能性を持つ「人工多能性幹細胞」(iPSC)に変えることができる。この能力は、失明、糖尿病、不妊症の治療、さらには臓器不足の解決に新たな道を開く。
しかしながら、従来の山中因子の適用は極めて効率が悪く、通常、形質転換に成功した細胞は0.1%以下であり、全プロセスに3週間以上かかる。特に高齢者や病気のドナーの細胞を扱うと、効率はさらに低下する。今回、AIによって再設計されたタンパク質変異体は、効率を大幅に改善しただけでなく、DNA損傷修復能力も実証した。
2025年になされたこの最初の発見は、現在、さまざまなドナー、細胞種、送達方法での再現実験によって検証され、得られたiPSC細胞株の完全な多能性とゲノムの安定性が確認されている。
タンパク質工学のための実験的GPTモデル
AIが生命科学研究を加速できることを検証するため、OpenAIはGPT-4b microと呼ばれるカスタムモデルを構築した。このモデルはGPT-4oのミニチュア版で、生物学、特に制御性と柔軟性のためのタンパク質工学の分野についての深い知識を与えるために特別に訓練されている。
多くのタンパク質言語モデルとは異なり、GPT-4b microのトレーニングデータには、タンパク質配列だけでなく、生物学的テキストとラベル付けされた3D構造データも含まれている。トレーニングデータには、タンパク質のテキスト記述、共進化した相同配列、既知の相互作用プロテオームなどのコンテキスト情報が特に豊富に含まれている。このアプローチにより、モデルは特定の属性を手がかりに配列を生成し、構造化タンパク質と「本質的に無秩序な」タンパク質を同等に扱うことができる。山中因子は後者であり、その活性は固定した単一の安定構造ではなく、複数の結合パートナーとの多数の一時的相互作用に依存する。
このようにして、モデルの有効コンテキスト長は独立シーケンスの限界をはるかに超え、推論プロセスでは最大64,000を処理することができる。 トークン これはタンパク質配列モデリングでは前例のないことである。
SOX2とKLF4の人工知能支援による形質転換
山中因子はOCT4、SOX2、KLF4、MYC(略してOSKM)の4つのタンパク質からなる。タンパク質の配列を変更することによって、これらを直接最適化することは難しい課題である。例えばSOX2(317個のアミノ酸を含む)とKLF4(513個のアミノ酸を含む)の場合、可能な変異の数は10の1000乗にもなる。
一度に数個のアミノ酸残基だけを変化させる従来の「定向進化」法では、可能性のごく一部しか探索できない。対照的にAIは、より広いデザイン空間を探索することができる。 レトロ・バイオサイエンスの研究チームは、まずウェットラボでスクリーニング・プラットフォームを構築し、GPT-4bマイクロを用いて「RetroSOX」と呼ばれる一連の候補配列を生成した。
その結果は驚くべきもので、このスクリーニングでは、30%を超えるモデル候補配列が、アミノ酸配列が平均で100以上異なるにもかかわらず、主要な多能性マーカーの発現において野生型SOX2を上回った。対照的に、従来のスクリーニングでは、ヒットは通常10%以下であった。
次に、チームはKLF4に的を絞った。このモデルは、50%に近いヒット率で、RetroSOXスクリーンのベストコンビネーションを上回る14の「RetroKLF」バリアントを生成した。
その効果は、RetroSOXとRetroKLFのトップ変異体を組み合わせた場合に最も劇的であった。つの独立した実験において、線維芽細胞は初期および後期多能性マーカーの劇的な増加を示し、後期マーカーは野生型OSKM混合物よりも数日早く出現した。アルカリホスファターゼ(AP)染色などのさらなるテストでも、これらの細胞コロニーが後期マーカーを発現するだけでなく、多能性の強い指標である強いAP活性を示すことが確認された。
臨床の可能性を探るため、研究チームは別の送達方法(ウイルスベクターに代わるmRNA)と別の細胞タイプ(50歳以上の中年ドナー3人から採取した間葉系間質細胞(MSC))も試験した。わずか7日以内に、30%細胞以上が主要な多能性マーカーを発現し始め、12日目には85%細胞以上がOCT4、NANOGを含む内因性幹細胞マーカーを活性化した。これらの細胞の核型分類は正常な染色体構造を示し、ゲノムの安定性と細胞治療に適していることが確認された。
DNA損傷修復の強化
研究者らは、リプログラミングの効率を向上させるだけでなく、細胞の若返り、特に細胞老化の典型的な特徴のひとつであるDNA損傷の修復能力について、これらの人工変異体の可能性を探った。
DNA損傷解析では、遺伝毒性化学物質で処理した後、RetroSOX/KLF混合物を発現させた細胞は、標準的なOSKMやコントロールを用いた細胞よりもDNA二本鎖切断マーカー(γ-H2AXシグナル)が有意に低かった。このことは、AIによって設計されたタンパク質変異体がDNA損傷をより効率的に修復し、細胞の老化を遅らせるための新たな可能性のある経路を提供することを示唆している。
将来展望
この研究は、ドメインに特化したAIモデルが、集中的な科学的問題に対していかに迅速にブレークスルーを達成できるかを明確に示している。研究者が深い領域に関する洞察と言語モデリング・ツールを組み合わせることで、かつては解決に何年もかかっていた問題が数日で進展する可能性がある。
もちろん、この研究はまだ初期段階にあり、研究室から臨床応用に移る前に、安全性と長期的な効果を慎重に評価する必要がある。しかし、生物医学分野におけるAIの応用に新たな扉を開き、AI主導の個別化医療と再生医療の新時代の到来を告げるものであることは間違いない。