OpenAIOpenAI NewsJun 3, 2026, 1:15 PM

Introducing new capabilities to GPT-Rosalind

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Introducing new capabilities to GPT-Rosalind

Key Points

  • Purpose-built life‑sciences model with agentic tool-use
  • Leads LifeSciBench across six end-to-end workflows
  • Research preview available to eligible organizations

Summary

GPT‑Rosalind is a model update purpose-built for enterprise life‑sciences research. It combines GPT‑5.5 agentic coding and tool-use with stronger domain intelligence across medicinal chemistry, genomics, quantitative biology, and end-to-end experimental workflows. The release demonstrates measurable wins on new benchmarks (LifeSciBench, MedChemBench, GeneBench), improves token efficiency, and is available in research preview to eligible organizations via trusted-access deployment.

Key Points

  • Model improvements

    • Integrates agentic coding/tool-use with domain-tuned reasoning for drug discovery and experimental workflows.
    • Demonstrates broader life‑sciences performance gains: medicinal chemistry, genomics, quantitative biology, and wet-lab troubleshooting.
  • Benchmarks & metrics

    • LifeSciBench: new expert-judged, end-to-end benchmark covering six workflow areas (evidence handling; analysis; design/optimization; reasoning; validation/operations; translation/communication).
    • MedChemBench: GPT‑Rosalind 27.5% vs GPT‑5.5 25.1% accuracy while using 7.2% fewer tokens.
    • GeneBench: GPT‑Rosalind 21.6% vs GPT‑5.5 20.4% accuracy while using 31% fewer tokens.
  • Practical capabilities demonstrated

    • Produces structured, critique-style scientific reviews (example: detailed pressure-test of an AAV9 micro-dystrophin regulatory package).
    • Identified concrete assay and trial design gaps (assay specificity, invalid standards, revertant-fiber confounding, biopsy variability, comparator bias, durability, immune safety, generalizability).
  • Actionable engineering recommendations (from model outputs)

    • Use transgene-specific assays and recombinant micro-dystrophin standards; add orthogonal quantification (e.g., targeted mass spectrometry).
    • Standardize biopsy procedures; measure tissue composition and normalize to muscle-specific proteins.
    • Prefer randomized concurrent controls or adjusted analyses with age stratification; avoid unpaired external-historical t-tests for pivotal claims.
    • Collect longitudinal transgene protein expression and functional durability beyond early timepoints; include mechanistic assays (nNOS recruitment, exercise physiology) for truncated constructs.
    • Intensify immune monitoring and cardiac follow-up; pre-specify stratified analyses for antibody status, genotype, and age to address generalizability.
  • Availability & deployment

    • Research preview globally to eligible organizations under a trusted-access deployment model; intended for enterprise-scale research integration.

Implications for engineering teams

  • Integrate GPT‑Rosalind where task workflows require multimodal evidence synthesis, experimental design critique, or medicinal-chemistry decision support.
  • Validate model outputs via domain experts and instrumented reproducibility checks before using for regulatory or clinical decisions.
  • Leverage agentic tool-use in pipelines to reduce token costs and automate multi-step analyses, while enforcing audit trails for evidence handling and assay recommendations.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

GPT‑Rosalindの新機能の紹介

2026年6月3日 — 製品研究リリース

GPT‑Rosalindの新機能の紹介

ライフサイエンス業界向けの実際の科学的ワークフローに根ざした、より高度な知能を提供します。

私たちは、エンタープライズ規模のライフサイエンス研究向けに設計されたGPT‑Rosalindシリーズの新しいモデルアップデートを発表します。これは、GPT‑5.5のエージェント的なコーディングとツール利用能力を、創薬の主要領域(例:医薬品化学、ゲノミクス)におけるより強力なモデル知性と組み合わせ、ライフサイエンス全般の解析、デザイン、実験ワークフローにおける性能を向上させます。

ライフサイエンスの進歩は、分子、遺伝子、経路、生体システムといったスケールやモダリティを横断してデータとエビデンスを総合することに依存しています。当社の評価において、更新されたGPT‑Rosalindは、生物学専門家による研究タスク、複雑な医薬品化学クエリ、定量生物学、ウェットラボのトラブルシューティングに関して広範な性能向上を示しました。GPT‑Rosalindは、信頼制御(deployment)構造を通じて、対象となる組織に対して研究プレビューとしてグローバルに提供可能です。

科学的価値の高いタスクに対する性能向上

現実世界でのインパクトを測定し継続的に改善するために、私たちはLifeSciBenchを設計しました。これは、外部の専門家によって評価されるベンチマークで、ライフサイエンス研究における基盤的側面に焦点を当てています。既存のベンチマークが単一コンポーネントや単一ドメインの性能を個別に評価するのに対し、LifeSciBenchは科学的に価値のある作業をエンドツーエンドで捉え、次の6つのワークフロー領域からタスクを抽出します:

  • エビデンス処理(Evidence handling)
  • 解析(Analysis)
  • デザイン、最適化、予測(Design, Optimization, & Prediction)
  • 科学的推論(Reasoning)
  • 検証と運用(Validation & Operations)
  • 翻訳と科学的コミュニケーション(Translation & Scientific Communication)

このベンチマークを用いて、進捗をライフサイエンス研究のニーズと現実に整合させています。GPT‑Rosalindは、業界および学術の専門家が特定した科学的に価値のあるタスク全体でリードしています。


評価例(Eval Example)

準備中のType B FDAミーティングについて想定します。対象はAAV9‑microDys‑X(Duchenne筋ジストロフィー向けのAAV9ベースのマイクロジスチン遺伝子治療)で、MCKプロモーターから138 kDaの構築体を発現します。我々は、現在の資料がマイクロジスチン発現を臨床的利益を予測し得るサロゲートエンドポイントとして加速承認を支持するかどうかについて、厳格な批判を求めます。

スタディ文脈:開放ラベルのPhase 1b/2、ambulatoryの4–7歳男児12名(確定したDMD、フレーム外ロッドドメイン欠失)。

提供されているパッケージの内容:

  • 前処置(pre-treatment)広筋(vastus lateralis)生検:定量的ウェスタンブロット(MANEX1A、N末端アクチン結合ドメインに対する)で健常対照のジストロフィンの0–3%。
  • 投与後12週の対側広筋生検:同じウェスタンブロットで平均マイクロジストロフィン38%(範囲18–61%)、Coomassie染色による総タンパクで正規化。
  • 投与後免疫蛍光(IF):C末端ポリクローナル抗ジストロフィン抗体で75–95%の筋繊維に筋膜(sarcolemmal)シグナル。
  • 投与後48週の機能評価:NSAAの平均変化はベースラインから+1.4ポイント、外部公表の自然経過レジストリコホートは−0.6(非対応t検定でp = 0.03)。
  • 安全性:8/12で一過性のトランサミナーゼ上昇(ステロイド漸減で管理);1例は回復した心筋炎;死亡なし。
  • 分布/持続性:AAV9ベクターゲノムは筋で12週時に核当たり平均2.3ベクターゲノムで検出。
  • 選択基準:ベースラインでanti‑AAV9中和抗体陰性(titer <1:400)、exon‑44欠失を除外。

このパッケージを項目ごとに厳しく検証してください:提示されているエビデンスがどこで我々の結論を支持するには不十分と見なされるか、そして可能であればそのギャップを埋めるためにどのような追加データ、解析、設計変更が必要かを示してください。明示されていない点については、2025年12月31日までに公表されている臨床グレードの138 kDaマイクロジストロフィンプログラムおよび関連臨床試験で知られていることを適用して良いものとします。


候補応答(Candidate Response) — 要点

提示されたパッケージは、現状ではマイクロジストロフィン発現を臨床利益を予測し得るサロゲートエンドポイントとしての加速承認を支持するには不十分です。懐疑的なFDAレビュアーは、バイオマーカー、機能、持続性、安全性、および一般化可能性に関するエビデンスが重大に不足していると見る可能性が高いです。

パッケージ項目別の主な失敗モードと必要な対応(表形式)

パッケージ項目主な失敗モード必要な追加データ・解析・設計変更
Western blot(定量)MANEX1Aは内因性のフルレングスジストロフィンとマイクロジストロフィンの両方に結合するN末端エピトープを認識するため、トランスジーン由来と残存/リバ―タントジストロフィンを明確に区別できない。138 kDaマイクロジストロフィンを健常フルレングス基準で定量するのは無効。組換えマイクロジストロフィン標準を用いること、あるいはトランスジーンと内因性を区別できるターゲット質量分析などの直交的手法、またはトランスジーン特異的/エピトープ特異的アッセイを使用する。
免疫蛍光(IF)138 kDa構築体はC末端ドメインを欠くため、C末端ポリクローナル抗体は不適切。多くのDMD患者に存在するリバ―タント繊維はC末端エピトープを保持する可能性があり、年齢が高いとリバ―タント繊維のクローン的拡大でIFシグナルが偏る。トランスジーンに存在しリバ―タントジストロフィンに存在しないエピトープを標的とする抗体でIFを再実施し、トランスジーン陽性繊維とリバ―タント繊維を別々に定量する。
サロゲートエンドポイントの妥当性「健常のタンパク量の38%」が必ずしも「正常ジストロフィン機能の38%」を意味しない。マイクロジストロフィンは構造的に切り詰められており、質量と機能の関係は経験的に検証が必要。マイクロジストロフィンの質量比、サルコレマル局在、下流の機能回復、および臨床効果との関係を経験的に検証し、発現をサロゲートとして扱う前に妥当性を示す。
生検設計前後の対側広筋生検は左右差・筋内の空間変動を導入する。疾患進行や線維脂肪置換が総タンパク正規化シグナルを変える可能性がある。一貫した解剖学的ランドマークで生検部位を標準化し、筋特異的タンパクで正規化し、並行して線維脂肪組成を測定する。
NSAAの比較/統計外部自然経過コホートはランダム化同時対照ではない。適格基準、補助療法、参加効果、基線NSAA、ステロイドレジメン、年齢、エクソンクラスがバイアスを生む。非対応t検定は不十分。+1.4の変化はこの年齢群の再現性変動内である可能性。ランダム化同時プラセボ対照試験を実施、または最小限でも基線NSAA、年齢、ステロイド、エクソン分類などの交絡因子を調整した解析を行う。
年齢ウィンドウの交絡4–7歳の男児は未治療であっても一時的に運動機能が向上する発達期にあり、48週のNSAA変化は発達的増加、疾患進行、治療効果の混合となる。年齢層を層別化した同時ランダム化対照を用いて発達軌跡と治療効果を分離する設計にする。
既往の臨床前例開放ラベルで得られたマイクロジストロフィンの機能信号は再現性のある確証的利益を示していない。公開された前例には開放ラベルNSAA改善が確認試験で再現されなかった試験がある。開放ラベルのNSAA変化に決定的に依存しないで、対照付きの機能的証拠を要求する。
構築体の構造的限界138 kDa構築体はスペクトリンリピートR16/17を欠き、nNOS結合部位を失う。nNOS再配置の欠如は運動時の同化交感調節(sympatholysis)や虚血保護を損ない、発現量に依存しない機能回復の上限を設定する可能性がある。この特定構築体が関連するジストロフィン結合複合体機能、nNOS局在、運動生理学、筋保護を回復するかどうかを示す機構的研究を追加する。
AAVの持続性12週でのベクターゲノム検出は持続的発現を確立しない。AAV9ゲノムは主に非組込みのエピソームであり、時間とともに減少し得る。ゲノム持続はタンパク持続とは同義ではない。長期的なトランスジーン蛋白発現と機能バイオマーカーの持続性を12週を超えて測定する。
免疫/安全性プロファイル8/12のトランサミナーゼ上昇はAAV導入細胞に対する免疫応答と一致するが、機序は確立していない。1例の心筋炎はAAV9の心臓嗜好性を考慮すると懸念材料。より詳細な免疫モニタリング、肝臓/心臓の安全性評価、強化された心臓フォローアップを提供する。
患者選択性/一般化可能性anti‑AAV9中和抗体陽性患者を除外しているため一般化可能性が制限される。exon‑44除外はそのDMDサブグループへの適用性を制限する。n=12は安全性・有効性を広く特徴付けるには小さい。可能なら適格基準を拡大、または抗体状態、遺伝子型/エクソンクラス、年齢、基線機能による層別解析を事前指定して、幅広い承認を支持する前に検証する。

規制上の結論(Regulatory conclusion)

このパッケージは生物学的活性を示している可能性はあるが、測定されたマイクロジストロフィン発現が臨床的利益を予測する信頼できるサロゲートであることを確立していません。主なギャップは、アッセイ特異性、無効な定量基準、リバ―タント繊維による交絡の可能性、ランダム化対照欠如、年齢関連のNSAA交絡、持続性の不確実性、および未解決の安全性/一般化可能性問題です。ギャップを埋めるには、トランスジーン特異的発現アッセイ、直交的タンパク定量、組織組成コントロール、長期持続性データ、短縮型構築体の機能に関する機構的検査、特に肝/心の安全性モニタリングを含む、年齢層別化された対照付き臨床デザインが必要です。


ルブリック基準と点数(Rubric Criteria & Grades)

  • マイクロジストロフィン定量のアッセイ/測定問題(MANEX1Aのエピトープ共有、フルレングス標準の無効性、組換えまたは直交的トランスジーン特異的測定の必要性)を特定:+24
  • マイクロジストロフィン発現量が自動的に機能的臨床利益の有効なサロゲートでない理由を説明:+22
  • 生検部位、組織組成、年齢ウィンドウによる交絡を指摘:+19
  • NSAAの比較/統計(外部自然歴対照への依存)の批判:+12
  • AAVの持続性、免疫反応、トランサミナーゼ上昇、心筋炎、長期発現/安全性の必要性に言及:+15
  • 患者選択性/一般化可能性のギャップ(anti‑AAV9除外、exon‑44除外、小標本サイズ)に言及:+8

医薬品化学(Medicinal chemistry)

GPT‑Rosalindは、分子を実用的な薬剤に変えることに特化した医薬品化学の分野で業界をリードする性能を達成しています。私たちはMedChemBenchを、現実的な医薬品化学ワークフローを反映するように設計しました。評価項目には、マルチモーダルな化学構造理解、構造活性相関(SAR)、薬物の効力・毒性・吸収・分布・代謝・排泄(ADME)の予測、複数パラメータを考慮したリード最適化の意思決定、逆合成(retrosynthesis)などが含まれます。

GPT‑RosalindはMedChemBenchでGPT‑5.5を上回り、成績は27.5%対25.1%で、かつトークン使用量を7.2%削減しました。GPT‑Rosalindは医薬品化学におけるマルチモーダル合成と機構推論で優れた成果を示しています。

ゲノミクスと定量生物学(Genomics and quantitative biology)

GeneBenchに関する当社のエージェント的評価(長期のエンドツーエンド解析)では、GPT‑RosalindはGPT‑5.5に比べて31%少ないトークンで処理を行い、精度は21.6%対20.4%とより高い結果を達成しました。

(ここで提供された原文は"GeneBe"で切れているため、以降の詳細は原文に従います。)