GPT-4からChemCrowまで：AIが化学研究にどう影響を及ぼすか

最近、『ネイチャー』に一篇文章を見ました：「Augmenting large language models with chemistry tools」。

記事はChemCrowについて紹介しており、これは有機合成、医薬品発見、材料設計などの分野のタスクのために特別に設計された化学インテリジェンスエージェントです。18種類の専門家によって設計されたツールを統合し、GPT-4を基盤モデルとして使用することで、ChemCrowはLLM（大規模言語モデル）の化学分野でのパフォーマンスを向上させ、新しい能力を示しました。ChemCrowは、除虫剤と3種類の有機触媒の合成プロセスを自主的に計画し実行し、さらに新しいクロマトグラフの発見を指導しました。LLMと専門家の二重評価により、ChemCrowが多様な化学タスクを自動化して処理する効果性が示されました。ChemCrowは専門的な化学者を支援するだけでなく、非専門家にとっても化学研究の敷居を下げ、実験化学と計算化学の間のギャップを埋める役割を果たします。

a. タスク解決プロセスの概要。様々な化学関連のソフトウェアやツールを使用して、ツールセットが作成されました。これらのツールとユーザー入力は大規模言語モデル（LLM）に渡されます。LLMは自動的で反復的な思考鎖プロセスを通じて、そのパス、ツール選択、および入力を決定し、最終的に答えを導き出します。図例では、一般的な除虫剤DEETの合成プロセスが示されています。

b. ChemCrowで実装されたツールセット：反応ツール、分子ツール、安全ツール、検索ツール、標準ツールが含まれています。画像出典：aの写真はIBM Researchによるもので、Creative CommonsライセンスCC BY-ND 2.0を使用しています。

a. ユーザーがChemCrowを起動するためにスクリプトを実行する例。

b. 硫化尿素有機触媒のクエリと合成プロセス。

c. 実験を実行するために使用されるIBM Research RoboRXN合成プラットフォーム（画像は国際商用機械会社提供、再印刷）。

d. 実験で検証された化合物。画像出典：cの写真はIBM Researchによるもので、Creative CommonsライセンスCC BY-ND 2.0を使用しています。

左側：人間の入力、操作、観察。

右側：ChemCrowの操作と最終的な答え、そして新しいクロマトグラフへの提案。

GPT-4とChemCrowの各種タスクにおける比較パフォーマンス

a. 各タスクごとの嗜好評価。各タスクに対して、評価者（n=4）にどのモデルの回答がより満足か尋ねられました。タスクは三つのカテゴリに分けられます：合成、分子設計、化学論理。タスクはカテゴリ内の難易度順に並べられています。

b. 有機合成タスクにおける平均化学的正確性（現実性）を、合成目標の合成可能性に基づいて並べたものです。評価者は人間（n=4）。

c. 全タスクにおける人間評価者（n=56）のスコアに基づく各指標の集約結果、EvaluatorGPTのスコア（n=14）と比較しています。誤差棒は信頼区間（95%）を示しています。

d. チェックボックスでそれぞれのシステムの利点と欠点が強調されています。これらの利点と欠点は評価者が残した観察結果に基づいています。

現在の結果は選ばれたツールの数と質に制限されていますが、可能性空間は非常に大きく、特に潜在的なツールが化学分野に限定されない場合です。他の言語ベースのツールや画像処理ツールなどを統合することで、ChemCrowの能力が大幅に強化される可能性があります。また、選定された評価タスクが限られているため、さらなる研究と開発によりこれらのタスクを拡張・多様化することで、これらのシステムの限界を本当に押し広げることができます。

専門化学者の評価によると、ChemCrowは化学的事実性、推論、応答の完全性においてGPT-4よりも優れています。特に、より複雑なタスクでは顕著です。GPT-4は記憶に関連するタスク、例えばアセトアミノフェンやアスピリンのようなよく知られた分子の合成では優れているかもしれませんが、ChemCrowはタスクが新規またはあまり知られていない場合に優秀であり、これらの方が通常有用で挑戦的です。対照的に、LLM駆動の評価はGPT-4を支持する傾向があり、それはその応答がより流暢で完全に見えるためです。しかし、LLM駆動の評価はモデルの化学推論における実際の有効性を評価する上で、人間の評価ほど信頼できないかもしれません。この違いは、ChemCrowのようなシステムが複雑で現実的な化学問題を解決する際の独自の能力をよりよく捉えるための評価方法のさらなる改善が必要であることを示唆しています。

評価プロセスには課題がなくなりませんが、実験デザインの改善により結果の有効性が向上する可能性があります。主要な課題の一つは、現在のAPIベースのLLMアプローチ下では、閉ソースモデルが提供する制御が限られているため、単一の結果が再現性に欠けることです。最近のオープンソースモデルはこの問題を解決する潜在的な解決策を提供しますが、推論能力の低下を伴う可能性があります。さらに、タスク選択における潜在的なバイアスや、大規模テストタスクソリューションにおける化学論理の固有の制限は、機械学習システムの評価を困難にしています。