Evo 2は、強力な新しいAIモデルであり、種をまたがるDNA、RNA、およびタンパク質の深い解析を提供します。

すべての生命領域における遺伝コードを理解することができます。
Evo 2は、世界最大規模の公開可能なゲノムデータAIモデルで、NVIDIA DGX Cloudプラットフォームに基づいて構築され、非営利の生物医学研究機関であるArc Instituteとスタンフォード大学によって共同開発されました。
Evo 2は、約9兆個の塩基の大きなデータセット上で訓練されており、これらはDNAとRNAの基本的な構成要素です。Evo 2は、遺伝子配列に基づいてタンパク質の形状や機能を予測したり、医療や産業応用に使用できる新しい分子を特定したり、突然変異がその機能にどのように影響を与えるかを評価するなど、生体分子研究に応用できます。
「Evo 2は、生成ゲノミクスにおける重要なマイルストーンを代表しています。これらの生命の基本的な構成要素に対する理解を進めることが、今日では想像できないような医療や環境科学の解決策を追求することにつながります。」
-- パトリック・シュウ(Arc Instituteの共同創設者兼コアリサーチャー、カリフォルニア大学バークレー校バイオエンジニアリング准教授)
「新しい生物学を設計することは伝統的に煩雑で予測不可能かつ手作業のプロセスでした。Evo 2によって、複雑なシステムの生物設計を研究者にとってよりアクセスしやすくし、以前は多くの時間を要した状況でも、新たな有益な進展を生み出すことができます。」
-- ブライアン・ヒー(スタンフォード大学化学工学准教授、ディーター・シュヴァルツ財団スタンフォードデータサイエンスフェロープログラムフェロー、およびArc Instituteイノベーションリサーチャー)
バイオモレキュラー科学の幅広い応用
Evo 2はDNA、RNA、タンパク質について深い洞察を提供します。このモデルは植物、動物、細菌など様々な生命領域をカバーする複数の種で訓練されており、ヘルスケア、農業バイオテクノロジー、材料科学などの科学分野に応用可能です。

Evo 2は、最大で100万トークンの長さの遺伝情報配列を処理できる新しいモデルアーキテクチャを採用しています。この広範なゲノムへの視点により、科学者たちがゲノムの遠隔部分同士の関連性や、細胞機能、遺伝子発現、疾患メカニズムの理解が深まる可能性があります。
ヒトの遺伝子には何千もの塩基対が含まれています——したがって、AIモデルがこれほど複雑な生物システムを分析するためには、可能な限り大きな遺伝子配列の部分を一度に処理する必要があります。
医療健康と創薬
Evo 2は、研究者がどの遺伝変異が特定の疾患に関連しているかを理解し、それらの領域を正確にターゲットとする新しい分子を設計して疾患を治療するのに役立ちます。例えば、スタンフォード大学とArc Instituteの研究者たちは、BRCA1遺伝子(乳がんに関連する遺伝子)のテストにおいて、Evo 2が以前認識されていなかった突然変異が遺伝子機能に影響を与えるかどうかを90%の精度で予測できることを発見しました。
農業
このモデルは、植物生物学に関する深い洞察を提供することで、科学者が気候に適応した作物や栄養密度の高い品種を開発し、世界の食糧不足に対処するのに役立ちます。他の科学分野では、Evo 2はバイオ燃料設計や、石油やプラスチックを分解するタンパク質のエンジニアリングにも応用できます。
Evo2 モデルアーキテクチャ、トレーニングプロセス、データセットおよび評価の概要
Evo 2はDNA配列をモデリングし、分子から細胞規模にわたる中心法則の適用を実現します。 Evo 2は、すべての生命領域を網羅し、数兆の塩基配列を含むデータで訓練されます。各UMAPポイントは個別のゲノムを表します。 モデルの性能を最適化し、広範な生物学的パターンを捉えるために、100万塩基対まで拡張する二段階のトレーニング戦略を採用しています。 革新的なデータ拡張と重み付け手法は、事前学習段階で機能的遺伝子要素に重点を置き、中間学習段階では長セクエンス構成に注力します。 Evo 2の訓練に使用されたトークンは40Bと7Bの2種類に分けられ、それぞれ短期事前学習段階と長文脈の中間学習段階に対応しています。 新しい多混合型StripedHyena 2アーキテクチャの図は、短期明示的(SE)、中期正則化(MR)、長期暗黙的(LI)hyena演算子の効率的なモジュール配置を示しています。 1024 GPU、40B規模において、StripedHyena 2、StripedHyena 1およびTransformerのイテレーション時間を比較し、顕著なスループット向上が示されました。 Evo 2の中間訓練における検証パープレキシティは、モデル規模と文脈長さの関係を比較し、規模と文脈長さの増加による性能向上を示しています。 修正版「針の先で草むらを探す」タスクは、Evo 2が最大100万のシーケンス長にわたる長いコンテキストにおける想起能力を評価し、モデルが100万トークンのコンテキストで効果的な想起を実現できることを証明しました。
Evo2のメカニズムに関する説明可能性は、DNA、RNA、タンパク質および生物体レベルの特性を明らかにしました。
Evo 2上で疎自符号化器(SAEs)を訓練し、解釈可能な生物学的機能に関連するSAE特徴を抽出しました。これらの特徴は、アノテーション、発見、および配列生成のガイダンスに使用できます。 E. coli K12 MG1655ゲノムにおいて、ファージ関連の特徴はRefSeqアノテーションされた前ファージに対して優先的に活性化(左側および右上隅)、そしてCRISPR配列内のファージ由来のスペーサー上でトリガーされます(右下隅)。 E. coli K12 MG1655の100 kb領域内で、開放読み枠(ORFs)、遺伝子間部位、tRNAおよびrRNAに関連する特徴の活性化状況を示しています。 E. coli K12 MG1655において、ある領域にはtufB遺伝子とthrTで終わるtRNA配列(左側)およびrpoB-rpoCサイト(右側)が含まれており、𝛼-ヘリックス、𝛽-シートおよびtRNAに関連する特性の活性化が示されています。図にはAlphaFold 3(AF3)の構造予測も重ね合わされており、左はEF-TuとthrT tRNAの複合体、右はRpoBとRpoCの複合体を示しています。 ヒトゲノムにおけるある特徴は、フレームシフト突然変異が発生した後に、危害の少ない突然変異タイプよりも容易に活性化されます。 ヒトゲノム中、転写因子結合部位に対応するDNAモチーフ上では、一連の特性が活性化されます。 ヒトゲノムにおけるエクソン、イントロンおよびその境界に関連する特性は、毛むくじゃらマンモスのゲノムの注釈に使用できます。
まとめ
すべての生命形式はDNAに情報をコードしています。ゲノム配列、合成、編集ツールは生物学研究を根本的に変えましたが、新しい生物システムを構築するには、ゲノム内に含まれる巨大な複雑性を深く理解することも必要です。
Evo 2——これは、すべての生命領域にわたる9.3兆個のDNA塩基対を含む、慎重に選定されたゲノム地図に基づいて訓練されたバイオロジー基礎モデルです。Evo 2は7Bおよび40Bのパラメータを持ち、空前の100万トークンのコンテキストウィンドウと単一ヌクレオチドレベルの解像度を提供し、特定のタスクに対する微調整なしに、非配列病的変異から臨床的に意義のあるBRCA1変異までの遺伝的変異の機能的影響を正確に予測することができます。
Evo 2は、エクソン-イントロン境界、転写因子結合部位、タンパク質構造要素、前噬菌体ゲノム領域などの多様な生物学的特性を自主的に学習できます。予測能力に加え、Evo 2はミトコンドリア、原核生物、真核生物の全ゲノム配列を生成でき、その生成結果は自然性と一貫性においてこれまでの方法よりも優れています。推論時の検索ガイドにより、Evo 2はエピゲノム構造の制御可能な生成を実現し、生物学における推論時スケーリングの効果を初めて示しました。
Evo 2は完全にオープン化されており、モデルパラメータ、トレーニングコード、推論コード、OpenGenome2データセットが公開されています。これにより、生物の複雑性の探求と設計を加速することが期待されます。Githubリンク🔗:http://github.com/ArcInstitute/evo2
