OpenAIOpenAI News2026/03/06 10:00

How Descript enables multilingual video dubbing at scale

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Descriptによる大規模多言語ビデオ吹替の実現方法

Key Points

  • 音節カウントで時間制約を最適化
  • GPT‑5系列で制約追跡が実用化
  • 運用で時間遵守率が大幅改善

Summary

DescriptはOpenAIの推論モデル(GPT‑5系列)を使って翻訳時に「意味の保持」と「時間長の遵守」を同時に最適化するパイプラインを構築しました。手法はトランスクリプトを発話チャンクに分割し、モデルで音節数を算出、言語別の話速に基づく目標音節数へ調整することで、翻訳生成段階でペーシング制約を満たします。これにより、手動での再タイミングや翻訳の手直しを大幅に削減し、運用スケールでのローカリゼーションが可能になりました。

Key Points

  • チャンク分割: 文境界・自然なポーズ・話し方に基づきトランスクリプトを短い発話単位に分割してタイミング制約を扱いやすくする。
  • 音節カウントと目標設定: 各チャンクの音節数をモデルで算出し、言語固有の話速仮定から翻訳後の目標音節数を推定する。
  • プロンプト設計: モデルに「意味保持」と「目標音節(duration adherence)」の両方を最適化するよう指示し、周辺チャンクをコンテキストに与えて整合性を保つ。
  • モデル起因の改善: GPT‑5系列の推論性能向上により音節数算出や制約追跡が実用域に到達。
  • 評価基準と結果: 再生速度での自然性評価(±10%まで遅く、+20%まで速くは許容)で、従来40–60%だった合格率が73–83%に向上。導入30日で翻訳付きビデオのエクスポートが+15%、言語によって13–43ポイントの時間遵守改善。意味的評価では85.5%のセグメントが4〜5評価を獲得。
  • 実運用上のトレードオフ: 吹替では長さ制約が強く、キャプションより意味の閾値を下げる運用が必要な場合がある。必要に応じて意味優先の制御を追加可能。
  • 次の展開: テキスト層改善に加え、音声・映像を含むマルチモーダルな最適化でトーンや強調をより良く保持する方針。

実装上の示唆:

  • まずはチャンク戦略と言語別話速のカタログを用意し、モデルでの音節算出精度を検証すること。
  • プロンプトで明示的に音節目標と意味カバレッジを与え、周辺コンテキストを含めて生成させる設計を行う。
  • 自動化された評価(時間遵守率と意味スコア)をパイプラインに組み込み、新モデルやプロンプト変更のA/Bで継続的検証すること。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Descriptが大規模な多言語ビデオ吹替を実現する方法

Descriptが大規模な多言語ビデオ吹替を実現する方法

公開日:2026-03-06

OpenAIの推論モデルを活用して、Descriptはタイミングや意味を損なうことなく大規模なコンテンツライブラリの自動ローカリゼーションを実現しました。DescriptはAIネイティブなビデオ編集ツールで、「テキストを編集できるなら、ビデオも編集できるべきだ」という単純なアイデアのもとに作られています。初期からAIはプロダクトのあらゆる側面(transcription、編集、audio cleanup、より複雑なクリエイティブワークフロー)を支えてきました。Descriptは長年にわたりOpenAIを活用しており、Whisperを文字起こしに、GPTシリーズをコエディタのUnderlord内で利用しています。

翻訳はすぐに高いインパクトを持つユースケースとして浮上しました。従来、ビデオ翻訳は遅く高コストで、言語の専門家がプロジェクト管理、逐語的な翻訳、品質管理、対応する音声生成を行う必要がありました。LLMはそのワークフローを大幅に短縮し、高品質な翻訳をスケール可能にします。

字幕(captions)と吹替(dubbing)はどちらも意味の忠実性(semantic fidelity)を要求しますが、時間の順守(duration adherence)は用途によって重要度が異なります。字幕では“あると便利”な要素ですが、吹替では決定的です。翻訳された音声が長すぎたり短すぎたりすると、意味が合っていても不自然に聞こえます。これに対処するため、Descriptは翻訳パイプラインを再設計し、生成中に意味の忠実性と時間の順守を同時に最適化するためにOpenAIの推論モデルを活用しました。ローンチ後30日間で、吹替付き翻訳ビデオのエクスポートが15%増加し、言語によっては時間の順守が13〜43パーセンテージポイント改善しました。

「吹替はDescriptでますます人気のあるユースケースなので、ライブラリ全体を翻訳・リップシンクしたい企業向けにバッチ処理で対応する方法を構築しています」 — Laura Burkhauser(CEO)

問題:吹替で破綻が起きる理由

翻訳はDescriptで最も早期に実装され、かつ要望の多い機能の一つでした。まずは字幕のみの翻訳から始め、うまく機能しましたが、多くのユーザーはターゲット言語での話し言葉(吹替)も求めました。しかし、繰り返し出てきた問題がありました:翻訳された音声が自然に聞こえないことでした。

「一番多かった不満は、翻訳言語での話速が不自然だということでした」 — Aleks Mistratov(Head of AI Product)

問題は、言語ごとに同じ内容を表現するのに要する時間が異なる点にありました。例えばDescriptは平均してドイツ語が英語より“長く”なる傾向があると観察しました。固定のビデオセグメントに収めるために、翻訳された音声は人工的に早く再生されたり遅く再生されたりしがちです。

例:

  • English: “Please review the safety guidelines before operating the machine.”
    • Syllables: 18
  • German: “Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”
    • Syllables: 24(40%増)

この場合、ドイツ語の音声は不自然に早回しにするか、あるいは時間内に収めるために翻訳文をやり直す必要があります。ユーザーが取れる選択肢は2つ:セグメントごとに手動でオーディオのタイミングを調整するか、翻訳自体を短く書き換えるか。どちらもタイムライン上の大幅な編集と、しばしばターゲット言語に近い流暢さを要求し、クリエイターにとって煩雑であり、大規模な企業向けローカリゼーションの障害になっていました。

タイミングを最適化する翻訳設計

チームは吹替を機能させるために必要な要素を明確に把握していました。システムは意味の最適化だけでなく、タイミング制約を意識する必要があります。例えば英語からドイツ語に翻訳する際、翻訳文がより少ない語数で同じ概念を表現する、または概念を簡潔化する方法を理解できなければなりません。以前のアプローチはまず意味の忠実性を最適化し、あとからタイミングを補正しようとしていましたが、意味的に正しくても時間制約を満たせないことが多く、全体品質は十分ではありませんでした。

「我々はインクリメンタルなテストを行いました。生成すらせず、単にテキストの音節数を出力させるだけのケースです。以前のモデルはそれが上手くできませんでした」 — Mistratov

信頼できる音節数の算出は重要でした。モデルが一貫して音節数を計算できなければ、特定の再生時間ウィンドウを確実に狙うことができません。GPT‑5シリーズのモデルは、音節カウントや制約追跡のようなタスクで以前のモデルになかった推論の一貫性をもたらしました。この改善を受けて、Descriptは翻訳と吹替のパイプラインを再設計しました。

パイプラインの主要フローは次の通りです:

  • 元の文字起こしを、文境界、自然なポーズ、録音中の話し方に基づいてチャンク(分節)に分割する。
  • 各チャンクは意味的連続性を保ちながら、タイミング単位として扱える十分小さなサイズにする。
  • モデルによりそのチャンクの音節数を算出する。
  • 言語固有の話速の仮定に基づき、翻訳後のチャンクが目標とすべき音節数(=自然な話速を保つための目標)を推定する(「duration adherence」)。
  • プロンプトは時間の順守と意味保存の両方を最適化するように指示する。周囲のチャンクをコンテキストとして渡して、セグメント間で意味的コヒーレンスを維持する。

チームはduration adherence、semantic fidelity、レイテンシ、コストのバランスを取るために複数の構成を評価しました。選定された設定はプロダクション速度で強い制約遵守を実現し、手動での再タイミングを必要としない高ボリューム翻訳を可能にしました。結果として、ペーシング(話速・時間制約)を事後に補正するオプションではなく、第一級の変数として扱う翻訳パイプラインが出来上がりました。

自然な話速の定義と測定

受け入れ基準を作るため、チームはリスニングテストを実施しました。翻訳された音声サンプルを生成し、再生速度を小刻みに調整して、どの時点で発話が不自然になるかをユーザーに評価してもらいました。

「遅くしても10%、速くしても20%程度までは一般的に自然に聞こえました」 — Mistratov

その範囲を超えると発話は歪んでしまいます。以前のシステムはこの指標で低パフォーマンスでした。言語によっては、許容されるペーシングウィンドウ内に入るセグメントは40%〜60%にとどまっていました。再設計したパイプラインでは、その比率が言語によって73%〜83%に上昇しました。

また別のモデルを審査役として、意味の忠実度を1(「全く違う」)から5(「意味的に同等」)のスケールで評価しました。吹替では字幕のみの翻訳よりも低い意味閾値を受け入れる判断を下しました(字幕では時間制約が無関係のため厳格に評価する)。そのトレードオフがあっても、セグメントの85.5%が意味遵守で4または5と評価されました。

この結果、時間と意味という競合する2つの制約を測定可能な信頼度で両立できるシステムが実現しました。両方の指標が自動化されているため、Descriptは新しいモデルリリースやプロンプトのバリエーションを同じベンチマークで継続的に評価できます。

大規模なビデオローカリゼーションの解放

翻訳が単一のビデオから大規模なコンテンツライブラリへと移行するにつれて、Descriptは翻訳を調整するためのより多くのコントロールを組み込んでいます。たとえば、必要に応じて意味の厳密性を優先する設定などです。Descript内での翻訳はより広いマルチモーダルシステムの一層に過ぎません。翻訳されたテキストは音声生成に渡され、リップシンクと最終的なビデオレンダリングを駆動します。テキスト層の改善は自然なペーシングを可能にしますが、最終的な体験は音声モデルがトーン、ケイデンス、非言語的な話し方の特徴をどれだけ保持できるかにも依存します。

「翻訳出力を改善する多くの要因は、パイプラインをよりマルチモーダルにすることにあります。翻訳を決めるときに音声、映像、テキストを統合すれば、トーンや強調などの非言語的特徴をよりよく維持でき、元の話し方をさらに保てるはずです」 — Mistratov

Descriptにとって、より強力な推論モデルは吹替の複雑さを扱えるようにしました。モデルがペーシングと意味のトレードオフを信頼性をもってバランスできる閾値を越えたことで、翻訳は体系的に改善・スケールできるものになりました。


More than 1 million businesses around the world are achieving meaningful results with OpenAI. Contact sales

関連記事:

  • Rakuten fixes issues twice as fast with Codex API — Mar 11, 2026
  • Wayfair boosts catalog accuracy and support speed with OpenAI ChatGPT — Mar 11, 2026
  • How Balyasny Asset Management built an AI research engine for investing — API — Mar 6, 2026
Descriptが大規模な多言語ビデオ吹替を実現する方法 | OpenAI News | DocsDigest