OpenAIOpenAI NewsMar 6, 2026, 10:00 AM

How Descript enables multilingual video dubbing at scale

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

Descript scales multilingual dubbing by optimizing timing with reasoning models

Key Points

  • GPT‑5 reasoning enables reliable syllable-aware translation
  • Pipeline optimizes timing and meaning during generation
  • Duration adherence rose to 73–83%; exports up 15%

Summary

Descript redesigned its translation pipeline to produce natural-sounding dubbed audio at scale by making pacing a first-class constraint during generation. Leveraging GPT‑5 series reasoning for reliable syllable counting and constraint-following, the system translates transcript chunks with target syllable budgets (based on language-specific speaking rates) and passes surrounding context to preserve coherence. This enabled high-volume, batched localization with measurable gains in duration adherence and semantic fidelity.

Key Points

  • Pipeline design:
    • Break transcripts into small, semantically coherent chunks guided by sentence boundaries and natural pauses.
    • Calculate syllable counts for each source chunk; compute target syllable budget using language-specific speaking-rate assumptions.
    • Prompt reasoning models to produce translations that optimize both duration adherence and semantic fidelity, with surrounding chunks as context.
  • Model and tooling:
    • GPT‑5 series models provided the needed reasoning consistency (syllable counting, constraint tracking).
    • Existing components feed into speech generation, lip-sync, and final rendering.
  • Evaluation and results:
    • Duration adherence improved from ~40–60% to ~73–83% depending on language; first 30 days saw a 15% increase in translated video exports.
    • Semantic ratings: 85.5% of segments scored 4–5/5 under a model-as-judge evaluation.
    • Listening tests established acceptable pacing windows (≈ −10% to +20% speed).
  • Engineering trade-offs:
    • Team balanced semantic fidelity, duration adherence, latency, and cost; acceptable semantic threshold for dubbing is lower than for captions.
    • System is configurable to prioritize stricter semantics when required.

Practical implementation notes

  • Start by chunking around natural pauses and sentence boundaries to limit reasoning scope.
  • Use a deterministic syllable estimator (or prompt model to count syllables) and translate toward a target syllable count derived from speaking-rate profiles.
  • Include adjacent chunks in prompts to maintain coherence and reduce disjoint translations.
  • Automate continuous evals: duration-adherence checks, model-as-judge semantic scoring, and targeted listening tests for threshold tuning.
  • Plan integration with downstream TTS and lip-sync so text-layer timing improvements translate into final audio/video quality.

Next steps

  • Move toward multimodal prompts that incorporate audio/video cues to better preserve tone, cadence, and nonverbal delivery.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

Descriptが大規模な多言語ビデオ吹替を実現する方法

Descriptが大規模な多言語ビデオ吹替を実現する方法

公開日:2026-03-06

OpenAIの推論モデルを活用して、Descriptはタイミングや意味を損なうことなく大規模なコンテンツライブラリの自動ローカリゼーションを実現しました。DescriptはAIネイティブなビデオ編集ツールで、「テキストを編集できるなら、ビデオも編集できるべきだ」という単純なアイデアのもとに作られています。初期からAIはプロダクトのあらゆる側面(transcription、編集、audio cleanup、より複雑なクリエイティブワークフロー)を支えてきました。Descriptは長年にわたりOpenAIを活用しており、Whisperを文字起こしに、GPTシリーズをコエディタのUnderlord内で利用しています。

翻訳はすぐに高いインパクトを持つユースケースとして浮上しました。従来、ビデオ翻訳は遅く高コストで、言語の専門家がプロジェクト管理、逐語的な翻訳、品質管理、対応する音声生成を行う必要がありました。LLMはそのワークフローを大幅に短縮し、高品質な翻訳をスケール可能にします。

字幕(captions)と吹替(dubbing)はどちらも意味の忠実性(semantic fidelity)を要求しますが、時間の順守(duration adherence)は用途によって重要度が異なります。字幕では“あると便利”な要素ですが、吹替では決定的です。翻訳された音声が長すぎたり短すぎたりすると、意味が合っていても不自然に聞こえます。これに対処するため、Descriptは翻訳パイプラインを再設計し、生成中に意味の忠実性と時間の順守を同時に最適化するためにOpenAIの推論モデルを活用しました。ローンチ後30日間で、吹替付き翻訳ビデオのエクスポートが15%増加し、言語によっては時間の順守が13〜43パーセンテージポイント改善しました。

「吹替はDescriptでますます人気のあるユースケースなので、ライブラリ全体を翻訳・リップシンクしたい企業向けにバッチ処理で対応する方法を構築しています」 — Laura Burkhauser(CEO)

問題:吹替で破綻が起きる理由

翻訳はDescriptで最も早期に実装され、かつ要望の多い機能の一つでした。まずは字幕のみの翻訳から始め、うまく機能しましたが、多くのユーザーはターゲット言語での話し言葉(吹替)も求めました。しかし、繰り返し出てきた問題がありました:翻訳された音声が自然に聞こえないことでした。

「一番多かった不満は、翻訳言語での話速が不自然だということでした」 — Aleks Mistratov(Head of AI Product)

問題は、言語ごとに同じ内容を表現するのに要する時間が異なる点にありました。例えばDescriptは平均してドイツ語が英語より“長く”なる傾向があると観察しました。固定のビデオセグメントに収めるために、翻訳された音声は人工的に早く再生されたり遅く再生されたりしがちです。

例:

  • English: “Please review the safety guidelines before operating the machine.”
    • Syllables: 18
  • German: “Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”
    • Syllables: 24(40%増)

この場合、ドイツ語の音声は不自然に早回しにするか、あるいは時間内に収めるために翻訳文をやり直す必要があります。ユーザーが取れる選択肢は2つ:セグメントごとに手動でオーディオのタイミングを調整するか、翻訳自体を短く書き換えるか。どちらもタイムライン上の大幅な編集と、しばしばターゲット言語に近い流暢さを要求し、クリエイターにとって煩雑であり、大規模な企業向けローカリゼーションの障害になっていました。

タイミングを最適化する翻訳設計

チームは吹替を機能させるために必要な要素を明確に把握していました。システムは意味の最適化だけでなく、タイミング制約を意識する必要があります。例えば英語からドイツ語に翻訳する際、翻訳文がより少ない語数で同じ概念を表現する、または概念を簡潔化する方法を理解できなければなりません。以前のアプローチはまず意味の忠実性を最適化し、あとからタイミングを補正しようとしていましたが、意味的に正しくても時間制約を満たせないことが多く、全体品質は十分ではありませんでした。

「我々はインクリメンタルなテストを行いました。生成すらせず、単にテキストの音節数を出力させるだけのケースです。以前のモデルはそれが上手くできませんでした」 — Mistratov

信頼できる音節数の算出は重要でした。モデルが一貫して音節数を計算できなければ、特定の再生時間ウィンドウを確実に狙うことができません。GPT‑5シリーズのモデルは、音節カウントや制約追跡のようなタスクで以前のモデルになかった推論の一貫性をもたらしました。この改善を受けて、Descriptは翻訳と吹替のパイプラインを再設計しました。

パイプラインの主要フローは次の通りです:

  • 元の文字起こしを、文境界、自然なポーズ、録音中の話し方に基づいてチャンク(分節)に分割する。
  • 各チャンクは意味的連続性を保ちながら、タイミング単位として扱える十分小さなサイズにする。
  • モデルによりそのチャンクの音節数を算出する。
  • 言語固有の話速の仮定に基づき、翻訳後のチャンクが目標とすべき音節数(=自然な話速を保つための目標)を推定する(「duration adherence」)。
  • プロンプトは時間の順守と意味保存の両方を最適化するように指示する。周囲のチャンクをコンテキストとして渡して、セグメント間で意味的コヒーレンスを維持する。

チームはduration adherence、semantic fidelity、レイテンシ、コストのバランスを取るために複数の構成を評価しました。選定された設定はプロダクション速度で強い制約遵守を実現し、手動での再タイミングを必要としない高ボリューム翻訳を可能にしました。結果として、ペーシング(話速・時間制約)を事後に補正するオプションではなく、第一級の変数として扱う翻訳パイプラインが出来上がりました。

自然な話速の定義と測定

受け入れ基準を作るため、チームはリスニングテストを実施しました。翻訳された音声サンプルを生成し、再生速度を小刻みに調整して、どの時点で発話が不自然になるかをユーザーに評価してもらいました。

「遅くしても10%、速くしても20%程度までは一般的に自然に聞こえました」 — Mistratov

その範囲を超えると発話は歪んでしまいます。以前のシステムはこの指標で低パフォーマンスでした。言語によっては、許容されるペーシングウィンドウ内に入るセグメントは40%〜60%にとどまっていました。再設計したパイプラインでは、その比率が言語によって73%〜83%に上昇しました。

また別のモデルを審査役として、意味の忠実度を1(「全く違う」)から5(「意味的に同等」)のスケールで評価しました。吹替では字幕のみの翻訳よりも低い意味閾値を受け入れる判断を下しました(字幕では時間制約が無関係のため厳格に評価する)。そのトレードオフがあっても、セグメントの85.5%が意味遵守で4または5と評価されました。

この結果、時間と意味という競合する2つの制約を測定可能な信頼度で両立できるシステムが実現しました。両方の指標が自動化されているため、Descriptは新しいモデルリリースやプロンプトのバリエーションを同じベンチマークで継続的に評価できます。

大規模なビデオローカリゼーションの解放

翻訳が単一のビデオから大規模なコンテンツライブラリへと移行するにつれて、Descriptは翻訳を調整するためのより多くのコントロールを組み込んでいます。たとえば、必要に応じて意味の厳密性を優先する設定などです。Descript内での翻訳はより広いマルチモーダルシステムの一層に過ぎません。翻訳されたテキストは音声生成に渡され、リップシンクと最終的なビデオレンダリングを駆動します。テキスト層の改善は自然なペーシングを可能にしますが、最終的な体験は音声モデルがトーン、ケイデンス、非言語的な話し方の特徴をどれだけ保持できるかにも依存します。

「翻訳出力を改善する多くの要因は、パイプラインをよりマルチモーダルにすることにあります。翻訳を決めるときに音声、映像、テキストを統合すれば、トーンや強調などの非言語的特徴をよりよく維持でき、元の話し方をさらに保てるはずです」 — Mistratov

Descriptにとって、より強力な推論モデルは吹替の複雑さを扱えるようにしました。モデルがペーシングと意味のトレードオフを信頼性をもってバランスできる閾値を越えたことで、翻訳は体系的に改善・スケールできるものになりました。


More than 1 million businesses around the world are achieving meaningful results with OpenAI. Contact sales

関連記事:

  • Rakuten fixes issues twice as fast with Codex API — Mar 11, 2026
  • Wayfair boosts catalog accuracy and support speed with OpenAI ChatGPT — Mar 11, 2026
  • How Balyasny Asset Management built an AI research engine for investing — API — Mar 6, 2026