Video Engine|台本・画像・音声・SRT・Remotion合成までつなぐAI動画制作エンジン
- Digital14,800 JPY

Video Engine は、AIショート動画制作の流れを、台本作成、画像プロンプト、音声生成、SRT生成・監査、BGM、Remotionによる動画合成まで順番に進めるための制作エンジンです。 動画制作で崩れやすいポイントは、台本・画像・音声・テロップ・動画尺のズレです。 このツールでは、いきなり動画を組み立てるのではなく、STEPごとに成果物を確認しながら進めます。 特にSRTは、台本から尺を推測して作るのではなく、生成済み音声を文字起こしして実タイムコードを取得する設計です。そのうえで、VAD/RMS発話区間、無音区間、字幕境界、SRT品質レポートを確認してから、動画合成へ進みます。 画像生成は手動・外部ツール・API利用を切り替え可能です。音声生成はGemini TTS想定、動画合成はRemotionとFFmpegを使う構成です。 AIで動画を作りたいけれど、音声とテロップがズレる、画像切り替えが合わない、工程が毎回バラバラになる人向けの制作支援ツールです。
公式サイト
https://okihiro-creative.com/products/video-engine/
機能詳細
■ 主な機能 ・順次ロード型のAI動画制作フロー ・MODE1〜MODE4による作業範囲の切り替え ・台本作成フロー ・動画スタイルと画風プリセットの選択 ・シーン分割 ・画像生成用プロンプト作成 ・参照画像あり / なしの画像プロンプト切り替え ・Gemini TTS想定のナレーション音声生成 ・Whisper / faster-whisper による音声起点の文字起こし ・VAD/RMSによる発話区間検出 ・無音区間検出 ・SRT生成 ・SRT品質監査 ・字幕境界の監査 ・語中分割、助詞孤立、語尾孤立のチェック ・BGM合成設定 ・Remotionによるテロップ・カメラモーション描画 ・FFmpegによる音声合成 ・最終動画出力 ・config/settings.yaml による制作設定管理 ■ 対応する制作モード MODE1: 台本作成のみ MODE2: ビジュアル方針、シーン分割、画像プロンプト、画像素材準備 MODE3: 音声生成、SRT監査、BGM、動画合成 MODE4: 台本から完成動画まで通しで進行 ■ 出力される主な成果物 ・台本ファイル ・format.yaml ・scene_plan.md ・画像プロンプト ・連番画像素材 ・ナレーション音声 ・Whisper文字起こしデータ ・VAD発話区間データ ・無音区間データ ・SRTファイル ・SRT品質レポート ・render_props.json ・最終動画MP4 ■ 注意 このツールは、完全自動で必ず動画が完成することを保証するものではありません。画像生成、音声生成、SRT監査、動画合成は、環境や素材、API設定、PC性能により結果が変わります。 初期設定では画像生成は manual です。画像はGPT Image 2などの外部ツールで生成し、連番で配置する運用が基本です。 video_api は将来枠であり、現時点では未整備です。
動作環境
■ 想定環境 ・Windows ・Python 3.10〜3.12 ・Node.js v20以上 ・npm ・FFmpeg ・PowerShell ・Gemini APIキー ・動画制作に耐えられるPC環境 ■ 主な依存ライブラリ ・google-genai ・faster-whisper ・silero-vad ・onnxruntime ・numpy ・soundfile ・Remotion ・React ・TypeScript ■ 必要なもの ・Python仮想環境を作成できること ・npm install が実行できること ・FFmpegにPATHが通っていること ・Gemini APIキーを自分で用意できること ・画像生成に使う外部ツール、または画像生成API環境 ・プロジェクト保存先フォルダ ■ セットアップ概要 1. ZIPを展開 2. SETUP.md を確認 3. Python仮想環境を作成 4. 必要なPythonライブラリをインストール 5. remotion フォルダで npm install を実行 6. FFmpegの動作確認 7. Gemini APIキーを secrets/api_keys_gemini.txt に設定 8. config/settings.yaml の projects_root を自分の環境に変更 9. 短いテスト台本で動作確認 ■ 注意事項 APIキーは購入者自身で用意してください。 長尺動画や高解像度動画ではPC性能が必要になります。 CPU環境でも動作可能な工程はありますが、文字起こしや動画処理に時間がかかる場合があります。 Mac / Linux 環境での動作は保証していません。
アップデート履歴
■2026/06/05: v3.0 ・Remotion連携を標準仕様化 ・台本、画像、音声、SRT、BGM、動画合成までの順次ロード型フローを整理 ・SRTを台本推測ではなく音声起点で生成するルールを強化 ・VAD/RMS発話区間と無音区間を使った字幕境界判断を追加 ・SRT品質監査ゲートを追加 ・語中分割、助詞孤立、語尾孤立、不自然な2行分割の監査ルールを追加 ・画像生成テンプレートを参照画像あり / なしで分岐 ・動画スタイル、画風プリセット、BGM、テロップ設定を config 管理化 ・Remotionによる滑らかなズームパンとテロップ描画に対応 ・FFmpegによる最終音声合成に対応
