概要
2026年5月12日 — Research
Parameter Golfを立ち上げた目的は、機械学習研究コミュニティが新しく、かつ厳密に制約された問題を探究するための参加と支援を促すことでした。チャレンジは、技術的創意工夫に報いるほど興味深く、同時に概念的にシンプルで検証しやすいものにしたいと考えました。
参加者は、固定されたFineWebデータセットでホールドアウト損失を最小化しつつ、モデル重みとトレーニングコードを含むアーティファクトの上限16 MB、8×H100sでの10分間トレーニング予算という制約を守る必要がありました。私たちはベースライン、データセット、評価スクリプトを提供し、参加者はリポジトリをフォークしてモデルを改善し、GitHub経由で結果を提出できるようにしました。
8週間の期間で、1,000人を超える参加者から2,000件を超える提出を受け取りました。提出物の技術的広がり、創意工夫、そしてルールの“曲げ方”に感心しました。注意深いオプティマイザ調整や量子化から新しいモデリングアイデアやテスト時トレーニングまで、多様なアプローチが見られました。
最も刺激的だった点の一つは、多くの参加者がAIコーディングエージェントを広く活用していたことです。エージェントは実験コストを下げ、より多くの人が参加しやすくし、コンペティションのペースを変えました。一方で、提出レビュー、帰属、スコアリングに関する新たな課題も生み出しました。
また、このチャレンジは人材発見の有意義な場にもなりました。Parameter Golfの目標の一つがそれであり、オープンな技術コンテストが優れた機械学習センスと粘り強さを明らかにする有用なシグナルであることが示されました。
以下では、私たちが驚きと興味を持って注目した提出のいくつかを紹介し、強力なAIエージェント時代にコーディングコンテストを運営して学んだことを共有します。
技術的所見
レコードトラック
レコードトラック上の各提出は審査・独立再現を行い、提出時点で記録更新であることを確認しました。いくつかのテーマが浮かび上がりました。
トレーニング最適化
既存コンポーネントの精緻なチューニングから強い結果を得た例がありました。
- 提出 #60 — @notapplica
- 技術: #50、#42、おそらく#39の既存改善を組み合わせ、Muon weight decay、spectral embedding initialization、residual-mix scheduling、compiled evaluationでより深いモデルを動かした。
- 意義: どの既存改善が重要かを特定してきれいに組み合わせた、リーダーボード作業の規律ある良例。
量子化
複数の提出が圧縮とエクスポートに注力しました。
-
提出 #414 — @signalrush
- 技術: GPTQ-liteを用いてトレーニング後に重みを量子化。
- 意義: GPTQ-liteを実戦で成功させた最初のリーダーボード提出で、評価の改善につながった。
-
提出 #1060 — @dexhunter
- 技術: @raahilshahの#634を基に、full Hessian GPTQを成功裏に利用。
- 意義: 以前の量子化作業を拡張して、より強力な圧縮の道筋を作った。
テスト時・評価戦略
いくつかの提出はモデル改善と評価戦略の境界を押し広げました。これらはルール内で有効でしたが、主催者による慎重なレビューを要しました。
新しいモデリングとデータアイデア
一部の提出は特に創造的なモデリング/データのアイデアを導入しました。
この9件を強調した理由は、チャレンジで見たかった結果の幅を代表しているからです。ある参加者は精密なチューニングで勝ち、別の参加者は量子化や低ランク手法を推し進め、評価ルールの境界を探る者もいれば、文献や独自発想から新しいモデリング/データアイデアを導入して予期せぬゲインを出した者もいました。
非レコードトラック
非レコードトラックには多くの創造的提出が集まりました。私たちは15件の注目作を挙げ、非自己回帰テキストモデリングや動的トークナイゼーションなど多様なアプローチを含みます。このトラックは実験的色が強いため、生の性能よりも技術的興味深さに重点を置きました。
特に際立った3件:
- CiprianFlorim-Ifrim の組合せ state-space model と JEPA の提出(新しいウィンドウで開きます)
- ddavidgao の Designator/Guided Attention の提出(新しいウィンドウで開きます)
- DariusFeher の Byte-Level H-Net の提出(新しいウィンドウで開きます)
これらは私たちのお気に入りの非レコード提出トップ3ですが、必ずしも性能上位3位というわけではありません。とはいえ、非レコードトラックは競争力があり、リーダーボードの半数がベースラインの1.22 BPBを上回り、トップは1.12 BPBに達しました。これは励みになる結果でした。強力なTransformerベースラインに対しても、代替アプローチが時には互角に渡り合えることを示しています。
また、このトラックは強力なコーディングエージェントの利用可能性から特に恩恵を受けると考えています。エージェントにより、投機的なアイデアのプロトタイプ作成が格段に安くなり、従来は短期間の競技では手を出しにくかったアプローチにも挑戦しやすくなりました。
持ち帰り(Takeaways)
Parameter Golfと従来の類似コンペの大きな違いは、コーディングエージェントの広範な利用でした。提出者の大多数が作業の一部にエージェントを利用したと報告しています。これにより参入障壁が下がり、参加者は実験を早く立ち上げられ、不慣れなコードの検査やアイデアの試験が容易になりました。
RunPodによる$1,000,000のコンピュートスポンサーシップも、チャレンジをより多くの人にとってアクセスしやすくする上で大きな役割を果たしました。
一方で、エージェント利用は提出とスコアリングに新たな問題をもたらしました。多くの提出は根本的に新しいアプローチというより、既存上位者への小さな変更でした。これは有益でもありました:強いアイデアは素早く広がり、他者によって洗練されました。しかしノイズも生まれました。競技ガイドライン外の手法で異常に高いスコアを出す提出が現れると、他のエージェントがそれをコピーし、同じ無効な方向に進み続けることがありました。
提出数の増大は運営方法にも影響しました。リーダーボードを動かし続けながら全てを手作業で精査することはできませんでした。チャレンジ中、私たちはCodexベースの内部トリアージボットを開発し、新しい提出を監視して人手レビューが必要なものをフラグ化しました。これは、1日に何百件という提出を受ける期間に特に重要でした。
AIエージェントはチャレンジ周辺のコミュニティにも組み込まれました。コンペの多くの期間で、@notapplicaとそのコーディングエージェントが“Live Updates”掲示を実行し、主要イベントの追跡、リーダーボード手法の解説、参加者のフォロー支援を行っていました。コミュニティレビュー用ツールも現れ、経験の浅い参加者がルール内に収まっているか確認し、一般的な無効アプローチを避けるのに役立ったようです。
次は?
私たちの主目的は、対象となる参加者が参加して機械学習研究を体験できるチャレンジを立ち上げることでした。Parameter Golfは技術的に強く創造的な幅広い提出を呼び込み、AIエージェントがより能力を持ち広く使われるようになるとオープンリサーチコンペがどのように変わるかについてより明確な見通しを与えてくれました。
将来的に同様のチャレンジをさらに立ち上げることを検討しています。興味がある方は、チャレンジ参加者フォームにご記入ください(新しいウィンドウで開きます)。
Research & Development — Author: OpenAI
さらに読む: View all
- Introducing OpenAI Privacy Filter — Research Apr 22, 2026
- Introducing GPT-Rosalind for life sciences research — Research Apr 16, 2026
- Inside our approach to the Model Spec — Research Mar 25, 2026