Introducing GPT-Rosalind for life sciences research

claudejamodel: claude-haiku-4-5

生命科学研究向けGPT-Rosalindの紹介

科学研究と創薬を加速させるために構築された専用モデル

本日、生物学、創薬、および臨床医学研究をサポートするために構築された最先端の推論モデルであるGPT-Rosalindを紹介します。生命科学モデルシリーズは科学的ワークフローに最適化されており、化学、タンパク質工学、およびゲノミクス全体にわたるツール使用の改善と深い理解を組み合わせています。

米国では、新薬の標的発見から規制承認まで、平均して約10～15年かかります。発見の初期段階で得られた進歩は、より良い標的選択、より強力な生物学的仮説、および高品質な実験につながり、その後の段階に複合的な効果をもたらします。

生命科学の進歩は、基礎となる科学の難しさだけでなく、研究ワークフロー自体の複雑さによっても制約されています。科学者は、新しいアイデアを生成し評価するために、大量の文献、専門的なデータベース、実験データ、および進化する仮説を扱う必要があります。これらのワークフローは、しばしば時間集約的で、断片化されており、スケーリングが困難です。

高度なAIシステムは、既存の作業をより効率的にするだけでなく、科学者がより多くの可能性を探索し、見落とされる可能性のある接続を表面化させ、より早くより良い仮説に到達するのを支援することで、研究者がこれらのワークフローをより速く進むのを支援できると考えています。

このモデルは、証拠の統合、仮説生成、実験計画、およびその他の多段階研究タスクをサポートすることで、発見の初期段階を加速させるのに役立つように設計されています。時間とともに、これらのシステムは、そうでなければ不可能な生命科学の突破口を発見するのに役立ち、成功率がはるかに高くなる可能性があります。

GPT-Rosalindは現在、ChatGPT、Codex、およびAPIで研究プレビューとして利用可能であり、信頼できるアクセスプログラムを通じて適格な顧客向けです。また、Codexの自由にアクセス可能な生命科学研究プラグインも導入しており、科学者が50以上の科学ツールとデータソースにモデルを接続するのに役立ちます。

Amgen、Moderna、Allen Institute、Thermo Fisher Scientific、およびその他の顧客と協力して、研究と発見を加速させるワークフロー全体でGPT-Rosalindを適用しています。

このモデルは、DNAの構造を明らかにするのに役立つ厳密な研究を行い、現代分子生物学の基礎を築いたRosalind Franklinにちなんで名付けられました。

科学的ワークフロー向けに構築

GPT-Rosalind生命科学モデルシリーズは、公開された証拠、データ、ツール、および実験全体にわたる現代的な科学的作業向けに構築されています。当社の評価では、分子、タンパク質、遺伝子、経路、および疾患関連生物学に関する推論が必要なタスクで最高のパフォーマンスを提供し、文献レビュー、配列から機能への解釈、実験計画、およびデータ分析などの多段階ワークフローで科学ツールとデータベースを使用する際により効果的です。

これはGPT-Rosalind生命科学モデルシリーズの最初のリリースであり、長期的な、ツール集約的な科学的ワークフロー全体にわたって、モデルの生化学的推論能力の限界を拡大し続けます。OpenAIのコンピュート基盤により、実際の科学的タスクに対して、ますます有能なドメインモデルの継続的なトレーニング、評価、および改善が可能になり、ワークフロー自体がより複雑になるにつれて、これらのシステムがより有用になるのに役立ちます。

顧客とエコシステム

大手製薬、バイオテクノロジー、および研究顧客、ならびに生命科学技術組織と協力して、発見を推進するワークフロー全体でGPT-Rosalindを適用しています。

Amgen
Novo Nordisk
Thermo Fisher Scientific
Moderna
Oracle Health and Life Sciences
NVIDIA
Allen Institute
Benchling
UCSF School of Pharmacy

「生命科学分野は、すべてのステップで精度を要求します。質問は非常に複雑で、データは非常にユニークで、ステークスは非常に高いです。OpenAIとのユニークなコラボレーションにより、患者への医薬品の提供方法を加速させる可能性を持つ新しく革新的な方法で、最も高度な機能とツールを適用することができます。」—Sean Bruich、Amgenの人工知能とデータの上級副社長

パフォーマンスと評価

科学的発見と業界研究に基本的な一連の機能全体でGPT-Rosalindを評価しました。これらの評価は、化学反応メカニズム、タンパク質構造、変異効果および相互作用、ならびにDNA配列の系統発生学的解釈を含む科学的サブドメイン全体にわたるコア推論を測定します。また、モデルが実験出力を解釈し、専門家関連のパターンを識別し、外部情報を統合してフォローアップ実験を設計することで、実際の研究ワークフローをサポートできるかどうかも評価します。最後に、モデルが正しい計算ツール、データベース、およびドメイン固有の機能を選択して使用し、推論を強化できるかどうかをテストします。

これらの評価を合わせると、科学研究の全体的なプロセス全体にわたる進歩が示され、研究者が困難な発見タスクを通じて作業するのを支援するより強い能力が示唆されます。

有機化学

タンパク質理解

ゲノミクス

実験設計と分析

ツール使用

プロンプト例:

「1-(ピリジン-3-イル)エタノールと1-フルオロ-2-ニトロベンゼンの塩基促進SNAr結合を計画しており、1-(ピリジン-3-イル)エチル2-ニトロフェニルエーテルの合成を目指しています。DMF/Cs2CO3でのアルコールの室温O-アリール化について説明する複数の特許を見つけましたが、反応が予想より長くかかっています。この反応を改善するにはどうすればよいですか？関連する文献または特許を見つけるのを手伝ってください。」

業界評価

GPT-Rosalindを一連の公開ベンチマークで評価しました。実際のバイオインフォマティクスとデータ分析を中心に設計されたベンチマークであるBixBenchでは、GPT-Rosalindは公開されたスコアを持つモデルの中で最高のパフォーマンスを達成しました。文献検索、データベースアクセス、配列操作、およびプロトコル設計などの一連の研究タスクのパフォーマンスを測定するLABBench2では、GPT-Rosalindは11のタスク中6つでGPT-5.4を上回ります。最も顕著な改善は、分子クローニングプロトコルのDNAと酵素試薬の全体的な設計が必要なCloningQAから来ています。

また、AI設計遺伝子療法を開拓している企業であるDyno Therapeuticsと提携して、未発表で汚染されていない配列を使用したRNA配列から機能への予測と生成タスクでモデルを評価しました。パフォーマンスはAI-bio分野の人間の専門家からの57の過去のスコアと比較されました。Codexアプリで直接評価した場合、最高10個のモデル提出は予測タスクで人間の専門家の95パーセンタイル以上にランクされ、配列生成タスクで人間の専門家の約84パーセンタイルの周りにランクされました。

これらの評価は、科学者が毎日証拠を生成し、複雑なデータを分析し、防御可能な生物学的結論に向かって進むために依存するワークフローの種類のパフォーマンスの意味のあるシグナルを提供します。

科学者が使用するツールへの接続

科学者は、本日GitHubで利用可能なCodexの新しい生命科学研究プラグインを使用できます。このパッケージには、ほとんどの一般的な研究ワークフロー向けの幅広いモジュール式スキルが含まれており、ユーザーが人間遺伝学、機能的ゲノミクス、タンパク質構造、生化学、臨床証拠、および公開研究発見全体で作業するのに役立つように設計されています。

これらのスキルは、科学者がより広く、曖昧で、多段階の質問をより効果的に処理するのに役立つオーケストレーションレイヤーとして機能します。50以上の公開マルチオミクスデータベース、文献ソース、および生物学ツールへのアクセスを提供し、タンパク質構造検索、配列検索、文献レビュー、および公開データセット発見などの一般的な反復可能なワークフローの柔軟な開始点を提供します。

適格なエンタープライズユーザーは、より深い生物学的推論のためにGPT-Rosalindを使用した研究ワークフローでこのプラグインを活用できますが、すべてのユーザーはメインラインモデルでプラグインパッケージを使用できます。

信頼できるアクセス

これらの機能を人間の健康を進める立場にある科学者と研究機関が利用できるようにしたいと考えていますが、生物学的悪用に対する強力なセーフガードを維持しています。生命科学モデルは、開始時に米国の適格なエンタープライズ顧客向けの信頼できるアクセス展開構造を通じて起動され、適格性、アクセス管理、および組織ガバナンスの周りにコントロールがあります。同時に、コネクタと生命科学研究プラグインのセットをより広く利用可能にしているため、研究者はメインラインモデルをより効果的に生命科学研究タスクに使用できます。

生命科学モデルは、エンタープライズグレードのセキュリティコントロールの強化とアクセス管理の強化により開発され、管理された研究環境での専門的な科学的使用を可能にします。

アクセスは3つのコア原則に基づいて評価されます：有益な使用、強力なガバナンスとセーフティ監視、および制御されたアクセスとエンタープライズグレードのセキュリティ。実際には、参加組織は明確な公共の利益を持つ正当な科学研究を実施する必要があります。適切なガバナンス、コンプライアンス、および悪用防止コントロールを維持する必要があります。セキュアで適切に管理された環境内で承認されたユーザーへのアクセスを制限する必要があります。

組織はまた、生命科学研究プレビュー条件に同意し、OpenAIの使用ポリシーに準拠する必要があり、オンボーディングまたは継続的な参加の一部として追加情報をリクエストする場合があります。

はじめに

組織は、当社の適格性とセーフティレビュープロセスを通じてアクセスをリクエストできます。研究プレビュー中、このモデルの使用は、悪用ガードラールの対象となる既存のクレジットまたはトークンを消費しません。プログラムが拡大するにつれて、価格設定と可用性の詳細を共有します。

生命科学モデルは、技術的機能と運用上のコントロールの両方を必要とする環境で、科学組織がより高品質の作業をより速く行うのに役立つように構築されています。当社の専任生命科学チーム、およびMcKinsey & Company、Boston Consulting Group (BCG)、およびBain & Companyを含むアドバイザリーパートナーは、組織が高影響力のユースケースを特定し、エンタープライズ環境にモデルを統合し、測定可能な結果を推進するのに役立ちます。

OpenAI Life Sciencesがあなたの作業をサポートする方法を探索したい場合は、当社の生命科学チームに連絡できます。

次は何か

これはGPT-Rosalind生命科学モデルシリーズの最初のリリースであり、人間の健康からより広い生物学的研究まで、社会にとって深く重要な領域で科学的発見を加速させることができるAIを構築するための長期的なコミットメントの始まりと見なしています。

生物学的推論を改善し、ツール集約的で長期的な研究ワークフローのサポートを拡大し、実世界への影響を評価するために主要な科学機関と密接に協力し続けます。これには、ロスアラモス国立研究所などの国立研究所との継続的なパートナーシップが含まれており、AI誘導タンパク質と触媒設計を探索しており、AIシステムが主要な機能特性を保持または改善しながら生物学的構造を変更する能力を含みます。

時間とともに、これらのシステムは発見の中でますます有能なパートナーになることが期待されます。科学者が質問から証拠へ、証拠から洞察へ、洞察から患者への新しい治療法へとより速く移動するのを支援します。

Summary