Understanding AI and learning outcomes

openaijamodel: gpt-5-mini-2025-08-07

AIと学習成果の理解

2026年3月4日 — Global Affairs

新しいツール：AIと学習成果の理解を深めるために

教育はAIが最も有望な応用分野の一つです。ChatGPTのようなツールにより、どこにいても、いつでも、個別化された学習支援が学生に提供され得ます。しかし教育分野は、AIが学習成果に与える影響の理解においてまだ初期段階にあります。

昨年、私たちのチームはstudy modeのようなツールの利用を調査し、学生の成績向上という有望な成果を確認しました。とはいえ、重要な問いも浮かび上がりました：AIが学習者の長期的な進捗にどのように影響するかを、単なる期末試験の結果だけでなくどう評価するか、です。

多くの研究手法はこれまで、テストスコアのような狭いパフォーマンス指標に依存しており、実際の教育現場で学生がAIとどのように学習し、その利用が時間経過で成果をどう形成するかを評価する能力に欠けていました。

私たちはこのギャップに対処するため、University of Tartu（エストニア）とStanford Accelerator for LearningのSCALE Initiativeと共同で、様々な教育コンテクストにわたる学習成果の縦断的測定を支援するフレームワーク、Learning Outcomes Measurement Suiteを開発しました。広範な検証はランダム化比較試験を通じて進行中で、Learning Labの創設パートナーとともにさらに研究を計画しています。創設パートナーにはArizona State University、UCL Knowledge Lab、MIT Media Lab（以前の共同研究を踏まえて）などの研究者が含まれます。

本日は測定スイートの仕組みとその重要性の概要を共有します。今後、研究成果を順次公開し、学校、大学、教育制度が世界中で利用できるように測定スイートを公開する予定です。

「この研究は、迅速に学びつつも、AIを学校に思慮深く統合する方法を深く理解するための基盤を築きます。私たちは、これらのツールが厳密な学術的学習を支えると同時に、高次の思考、創造性、好奇心、そして学習者としての自信を育む方法を理解したいと考えています。」

— Susanna Loeb, Professor of Education and Faculty Director, SCALE Initiative at Stanford University

要点のまとめ

現時点のAIが学習に与える影響の研究は、パフォーマンスに関する有望なシグナルを示していますが、時間経過でAIが学習成果にどう作用するかの全体像を捉えきれていません。
Learning Outcomes Measurement Suiteは、教育者・研究者・教育機関が異なる文脈でAIが学習や成果をどのように形成するかを理解するための、縦断研究の標準的フレームワークを初めて提供します。
OpenAIのLearning Labはこの研究を推進する新たな研究エコシステムであり、OpenAIは分野の進展に合わせてパートナーとともに成果を公開していきます。

起源と初期研究

学生がAIツールを学習に使うとは、クイックな回答を求める使い方から、チューターのように段階的に問題解決を支援する使い方まで多様です。深い理解やスキルの構築を支援する利用を促すため、OpenAIは昨年study modeを導入しました。

study modeの内部では、教師・科学者・教育学専門家と協働して作成したカスタムのsystem instructionsが使われており、スキャフォールディング（足場かけ）、理解確認、ガイド付き練習など、単なる回答提供ではない学習を支える行動を反映しています。

このような教育学に整合したAIとのやり取りが、より良い学習成果に結びつくかを検証するために、ニューロサイエンスとミクロ経済学の試験準備をする300名超の大学生を対象にランダム化試験を実施しました。分析は進行中ですが、教育学に整合したAIの相互作用スタイル（study modeのような機能を通じて促される）は学習成果を改善し得る、という初期の手応えが得られています。

しかし、この研究で重要な現実も明らかになりました：本当に重要なのは、得られた向上や生産的な行動が時間を経ても持続するかどうかです。

研究デザイン

参加者は3つのグループのいずれかに割り当てられました：

コントロール群：Google SearchやYouTubeなどの従来のオンラインリソースを用いて学習し、AI生成の概要機能は無効化。
2つのstudy modeバリアント群：学習プロセスをわずかに異なる方法で案内する2種類のstudy modeにアクセスを付与。

事前にベースラインのクイズとオンボーディング調査を収集し、事前の履修状況、学習習慣、学業に対する自信、AIツールへの慣れなどの差を調整しました。学生は各試験前に制限時間付きのstudy modeセッションを実施し、2つのバリアントは科目ごとにカウンターバランスされました。

この設計は、厳密に管理されたラボ環境ではなく、現実の学習条件を反映するよう意図されています。参加は試験の成績に結び付けられておらず、すべての学生が名目上の40分間セッション中に同程度study modeを利用したわけではありません。

このことは、ツールへのアクセスを提供された影響（提供されること自体の因果的影響）を現実的な導入条件下で測定・報告する意向治療効果（intention-to-treat, ITT）を評価することを可能にしました。実際の運用では関与度が変動し得ることを前提としています。

発見

各試験ごとにパフォーマンスを測定しました。ランダム化試験では、改善は科目間で一様ではなく、study modeへの関与度も参加者ごとにばらつきがありました。

Neuroscience（主要なITT解析）：study modeはコントロールと比べ方向性的に良好な差を示しましたが、従来のオンライン資源で学習した学生との差は統計的に明確に区別できるものではありませんでした。一部のオンボーディングや技術的な問題が、study mode利用者の学習時間に影響を与えました。
Microeconomics（主要なITT解析）：study modeへのアクセスが割り当てられた学生は、no-AIコントロール群に比べ試験成績で有意な向上を示しました—おおよそ15%高いスコア。
study mode（variants A & B）対 Control（no AI群）：調整平均得点

（注：個々のstudy modeバリアントをコントロールと比較しても効果は一貫しています。）

これらの結果は実世界の変動を反映していますが、学習成果の測定方法に関するより深い制約を浮き彫りにしました。既存の評価アプローチの多くは、固定された介入を短期間に評価し、テストスコアや期末エッセイのような結果を主要なシグナルとして用いることに依存しています。これらの手法は、AIが実際に学習に影響を与える主要なメカニズムを捉えるよう設計されていません：すなわち学習者の戦略、好み、学習習慣とともに進化する継続的で個別化された相互作用です。

また、短期的な記憶の向上のようなある能力の改善が、持続力、自律的動機付け、創造的問題解決など他の能力とのトレードオフを伴うかどうかも浮き彫りになりません。結果として、最終的にAIが学習を有意に改善するかどうかを決定する縦断的な認知への影響を見逃してしまいます。

学習環境は国、カリキュラム、制度目標により大きく異なるため、単発の研究の成果が他のシステムへ一般化されることは稀です。測定アプローチは各教育システムが自分たちの文脈で成功を定義し、独自の基準でAIを評価し、それに応じて反復できるよう柔軟である必要があります。

より良い測定システムの構築

OpenAIのstudy mode研究から得た学びをもとに、私たちは学習者へのAIの影響を大規模に測定し、これらの成果に基づいてモデルを改善するための構造化された測定システムを構築してきました。これは、モデルの振る舞い、学習者の反応、時間経過で生じる測定可能な認知成果という3つの信号に基づいています。

具体的には以下を含みます：

システム指示（system instructions）によるモデル行動の精緻化：自然言語を用いてモデルのデフォルトの振る舞いを変更し、特定の教育学的アプローチにより整合させる手法。
Learning interaction classifiers（学習相互作用分類器）：実際の非識別化された学習者—モデル間のやり取り内で「learning moments（学習の瞬間）」を自動検出し、エンゲージメントや誤り訂正などの顕著な特徴にラベル付けする。
Learning quality graders（学習品質評価器）：各学習の瞬間が学習者の目的を達成したか、および相互作用が強い教育学的原則に従った度合い（失敗モードの特定を含む）を評価・採点する。
Longitudinal learning graders（縦断的学習評価器）：同一の学習者のモデルとの相互作用の変化（エンゲージメント、持続性、メタ認知戦略など）を、個人レベルおよびコホートレベルで追跡する。
標準化された認知・メタ認知測定（Standardized cognitive and metacognitive measures）：ChatGPTを通じて事前/利用中/事後に配信される第三者検証済みの計測手段で、批判的思考、創造性、記憶などの基礎能力のベースライン設定と変化の測定に用いる。

これらを総称してLearning Outcomes Measurement Suiteと呼んでいます。組み合わせることで、教育エコシステムが利用できる重要なシグナルを生成します：学習の瞬間の構造化されたビュー、コホートにわたる時間経過での成果の変化を示すダッシュボード、教育・チュータリングのルーブリックに対するモデル性能の指標、標準化評価や短い学習者向けアンケートに整合した成果指標などです。

利用可能な場合は、試験得点、教室観察、出席などパートナー提供のグラウンドトゥルースも組み込めます。すべてのデータは非識別化されています。

このシステムにより、パートナーはAIを学習に使うことの時間経過におけるより深い認知的影響を理解できます。たとえば以下の能力に対する影響を追跡できます：

自律的動機付け（Autonomous Motivation）：学習者が自ら学習を形成している度合い（モデルに指示されるのではなく）
生産的エンゲージメント（Productive Engagement）：教育的相互作用の頻度、種類、質
課題持続性（Task Persistence）：学習者が認知的課題に留まり、困難を乗り越えようとする度合い
メタ認知（Metacognition）：学習計画、振り返り、学習アプローチのモニタリングの頻度と質
再現（Recall）：以前のやり取りから内容を正確に思い出せる度合い

これは、学習成果を単に狭義の指標（テストスコアの上昇）で捉えるのではなく、学習を支える包括的な能力に焦点を当てるという私たちの全体的な取り組みを反映しています。また、最適化すべき単一の正解は存在しないという考えも示しています：システムと教育者は教育学のベストプラクティスに沿ってトレードオフを誘導できるようにする必要があります。

今後の展開

Learning Outcomes Measurement Suiteは大規模研究を通じて検証中であり、一般公開前にさらに検証を重ねています。この作業はUniversity of TartuとStanfordのSCALE Initiativeと共同で進められており、エストニアのような国規模のパートナーと協働して進行中です。エストニアでは16〜18歳の約20,000人の生徒を数か月にわたって測定スイートで研究しています。

学生の利用は現地のリーダーと密接に協力して行われ、安全性と現地カリキュラムとの整合性が確保されます。

「エストニアは常に教育を静的なものとしてではなく、継続的に改善するシステムとして捉えてきました。AIがその図に加わる中で、大きな問いはAIの学習に対する長期的影響をどう計測するかです。それが私たちがOpenAIとともに解き明かそうとしていることです。学生たちは開発プロセスに関わることに意欲的で、多くがAIで学びを支える方法を学びたいと考えています。これは真の転換点のように感じられ、他の教育システムが再利用・発展させられる手法に貢献できることを楽しみにしています。」

— Jaan Aru, Associate Professor at the Institute of Computer Science, University of Tartu

この作業は、より広範な共同研究の蓄積の上に構築されています。Learning Labの創設パートナーを通じて行われている成果研究に加え、OpenAIは学習の交差点にある研究を支援しています。

Summary

Summary

Key Points

Engineering implications

Where to look next

Translations

要点のまとめ

起源と初期研究

研究デザイン

発見

より良い測定システムの構築

今後の展開