ClaudeOpenAI News2026/03/06 10:00

How Descript enables multilingual video dubbing at scale

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

claudejamodel: claude-sonnet-4-20250514

Descriptが推論モデルを活用した大規模多言語動画吹き替えシステムを実現

Key Points

  • 推論モデルで翻訳時にタイミング制約を同時最適化
  • 自然な音声ペース達成率が73-83%に大幅改善
  • 大規模コンテンツライブラリの自動多言語化を実現

Summary

DescriptはOpenAIの推論モデル(GPT-5シリーズ)を活用して、動画の多言語吹き替えにおける意味保持と音声タイミングの両方を最適化する新しい翻訳パイプラインを構築しました。従来の手法では翻訳後にタイミング調整を行っていましたが、新システムでは翻訳生成時に音節数と継続時間制約を同時に考慮することで、自然な音声ペースを実現しています。

Key Points

  • 推論モデルによる制約最適化: GPT-5シリーズの推論能力を活用し、音節数計算と継続時間制約を翻訳生成時に同時処理
  • 大幅な品質向上: 自然な音声ペースの範囲内に収まるセグメントが40-60%から73-83%に改善
  • スケーラブルな評価システム: 継続時間遵守と意味保持の両方を自動評価し、継続的な改善を実現
  • 企業向けバッチ処理: 大規模コンテンツライブラリの一括翻訳・リップシンク機能を提供
  • マルチモーダル統合: テキスト翻訳、音声生成、リップシンク、動画レンダリングを統合したワークフロー

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

claudejamodel: claude-sonnet-4-20250514

Descriptが大規模な多言語動画吹き替えを実現する方法

2026年3月6日 API スタートアップ

OpenAIの推論モデルを使用して、Descriptはタイミングや意味を失うことなく、大規模なコンテンツライブラリの自動ローカライゼーションを実現しました。

Descriptについて

Descript は、シンプルなアイデアを中心に構築されたAIネイティブな動画エディターです:テキストを編集できるなら、動画も編集できるはずだ、というものです。Descriptの初期から、AIは製品のあらゆる側面を支えてきました:文字起こし、編集、音声クリーンアップ、そしてますます複雑になるクリエイティブワークフローです。彼らは長年OpenAIを基盤として構築し、文字起こしにはWhisper、共同エディターのUnderlord内ではGPTシリーズモデルを使用してきました。

翻訳は、すぐに高いインパクトを持つユースケースとして浮上しました。従来、動画の翻訳は遅くて高コストで、言語専門家がプロジェクトを管理し、機械的な翻訳を作成し、品質管理を行い、対応する音声を生成する必要がありました。LLMはそのワークフローを劇的に圧縮し、大規模で高品質な翻訳を可能にしました。

字幕と吹き替えの違い

字幕と吹き替えの両方で意味の忠実性が求められます:翻訳は元の意味を保持する必要があります。しかし、継続時間の遵守はそれぞれで異なる役割を果たします。字幕では、それはあれば良いものです。吹き替えでは、それは重要です。なぜなら、翻訳された音声が長すぎたり短すぎたりすると、意味が正しくても不自然に聞こえるからです。

これに対処するため、Descriptは翻訳パイプラインを再設計し、OpenAIの推論モデルを使用して、生成後ではなく生成中に意味の忠実性と継続時間の遵守を最適化しました。

展開後の最初の30日間で、吹き替え付き翻訳動画のエクスポートが15%増加し、継続時間の遵守は言語によって13から43パーセントポイント改善しました。

「吹き替えはDescriptでますます人気のあるユースケースなので、ライブラリ全体を翻訳してリップシンクしたい企業向けにバッチで実行する方法を構築しています」とCEOのLaura Burkhauser氏は述べました。

吹き替えが破綻し始めた場所

翻訳はDescriptの最も早期で最も要望の多い機能の一つでした。彼らは字幕のみの翻訳から始め、これはうまく機能しましたが、多くのユーザーはさらに進んで、対象言語での音声(吹き替え)を求めていました。

しかし、一つの問題が浮上し続けました:吹き替え音声が常に正しく聞こえるとは限らないことです。

「おそらく私たちが聞いた一番の苦情は、翻訳された言語での音声のペースが不自然だということでした」と、DescriptのAI製品責任者であるAleks Mistratov氏は述べました。

問題は、異なる言語が同じアイデアを表現するのに異なる時間がかかるという事実に起因していました。Descriptは、例えば平均的にドイツ語は英語よりも「長い」言語であることを観察しました。固定された動画セグメントに収めるため、翻訳された音声はしばしば人工的に速くしたり遅くしたりする必要がありました。

「シマリスのような音や、眠そうな巨人のような音になってしまうのです」とMistratov氏は説明しました。

英語: "Please review the safety guidelines before operating the machine." 音節数:18

ドイツ語: "Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen." 音節数:24(40%増加)

この場合、ドイツ語の音声は不自然に速くするか、時間予算に合わせて翻訳を書き直す必要がありました。

ユーザーには2つの選択肢が残されました:音声をセグメントごとに手動で再タイミングするか、時間に合わせて翻訳自体を書き直すかです。どちらのアプローチも深いタイムライン編集が必要で、しばしば対象言語のネイティブレベルの流暢さが必要でした。これはクリエイターにとって面倒で、大規模な企業ローカライゼーションプロジェクトへの機能拡張の障壁となりました。

意味だけでなくタイミングも最適化する翻訳

チームは吹き替えを機能させるために何が必要かについて明確な理論を持っていました。システムは意味的な意味を最適化するだけでなく、タイミングの制約も認識する必要がありました。例えば英語からドイツ語に翻訳する際、モデルはより少ない単語を使用したり概念を簡素化したりする方法を理解し、吹き替え音声が自然に保たれるようにする必要がありました。

以前のアプローチは最初に意味の忠実性を最適化し、その後でタイミングを修正しようとしていました。翻訳はしばしば意味的には正しかったのですが、継続時間の制約を定期的に見逃し、全体的な品質はまだ十分ではありませんでした。

「私たちは段階的なテストを実行しました。何も生成せず、単にモデルにテキストの塊の音節数を出力するよう求めただけです」とMistratov氏は述べました。「以前のモデルは単純にそれが得意ではありませんでした。」

信頼性のある音節カウントが重要であることが判明しました。モデルが一貫して音節を計算できなければ、特定の継続時間ウィンドウを確実にターゲットにすることはできませんでした。

GPT-5シリーズモデルは、特に音節カウントや制約追跡などのタスクにおいて、以前のモデルにはなかった推論の一貫性のレベルをもたらしました。

その改善により、Descriptは翻訳と吹き替えパイプラインを再設計しました。

新しいパイプライン

まず、Descriptのシステムは、文の境界、自然な間、元の録音での話し方のパターンに導かれて、トランスクリプトをチャンクに分割します。各チャンクは意味的な連続性を維持しますが、タイミング単位として推論するのに十分小さくなっています。

そこから、モデルはチャンク内の音節数を計算します。言語固有の話速の仮定を使用して、システムは自然なペースを保持するために翻訳されたチャンクがターゲットとすべき音節数を推定します(「継続時間遵守」)。

プロンプトは、継続時間遵守と意味保持の両方を最適化するようモデルに求めます。周囲のチャンクはコンテキストとして渡され、モデルがセグメント間で意味的な一貫性を維持できるようにします。

チームは、継続時間遵守、意味の忠実性、レイテンシ、コストのバランスを取るために複数の構成を評価しました。選択されたセットアップは、本番速度で強力な制約追従を提供し、手動での再タイミングなしに大量翻訳を可能にしました。

結果は、ペースが事後修正されるものではなく、第一級変数として扱われる翻訳パイプラインです。

自然なペースの定義と測定

評価の受け入れ基準を開発するため、チームはリスニングテストを実行しました:翻訳された音声サンプルを生成し、小刻みに再生速度を調整し、音声がいつ不自然になるかをユーザーに評価してもらいました。

「10%遅くしたり、20%速くしたりしても、一般的にまだ自然に聞こえました」とMistratov氏は述べました。この範囲を超えると、音声は歪みすぎました。

以前のシステムはその基準では性能が悪く、言語によって40%から60%のセグメントのみが受け入れ可能なペースウィンドウに収まっていました。再設計されたパイプラインでは、その数字は40%-60%から言語によって73%から83%の間に増加しました。

チームはまた、1(「完全に異なる」)から5(「意味的に同等」)の範囲のスケールで別のmodel-as-judge評価を使用して意味の忠実性を評価しました。吹き替えでは、継続時間制約が無関係な字幕のみの翻訳よりも低い意味閾値を受け入れることにしました。そのトレードオフがあっても、85.5%のセグメントが意味遵守で5点満点中4点または5点と評価されました。

結果は、タイミングと意味という2つの競合する制約を測定可能な信頼性でバランスできるシステムでした。そして両方のメトリクスが自動化されているため、Descriptは同じベンチマークに対して新しいモデルリリースとプロンプトバリエーションを継続的に評価できます。

大規模動画ローカライゼーションの実現

翻訳が単一動画から大規模コンテンツライブラリに移行するにつれ、Descriptは必要に応じてより厳密な意味の忠実性を優先する能力を含め、翻訳の調整方法により多くの制御を構築しています。

Descript内の翻訳は、より広範なマルチモーダルシステムの一層に過ぎません。翻訳されたテキストは音声生成に供給され、それがリップシンクと最終的な動画レンダリングを駆動します。テキスト層での改善は自然なペースを可能にしますが、全体的な体験は音声モデルが音調、リズム、音声の非言語的特徴をどれだけうまく保持するかにも依存します。

そこにチームは次のフロンティアを見ています。

「翻訳出力を改善する多くのことは、パイプラインをよりマルチモーダルにすることです:翻訳方法を決定する際に音声、動画、テキストを一緒に組み込むことです」とMistratov氏は述べました。「それは音調や強調などの音声の非言語的特徴をより良く維持し、元の配信をさらに保持するはずです。」

Descriptにとって、より強力な推論モデルが吹き替えの複雑さを扱いやすくしました。モデルがペースと意味の間のトレードオフを確実にバランスできる閾値を越えることで、翻訳はチームが体系的に改善し、大規模に展開できるものになりました。

新しい働き方の時代に参加しよう

世界中の100万を超える企業がOpenAIで意味のある結果を達成しています。

営業に連絡

続きを読む

  • Rakuten fixes issues twice as fast with Codex API(2026年3月11日)
  • Wayfair boosts catalog accuracy and support speed with OpenAI ChatGPT(2026年3月11日)
  • How Balyasny Asset Management built an AI research engine for investing API(2026年3月6日)