Whispering Tiger (Realtime Translation, Voice + Image Recognition)(リアルタイム翻訳、音声+画像認識)
- v1.3.6.1 latestDigital0 JPY
- DonationDigital800 JPY

Whispering Tiger is a free and Open-Source tool that can listen/watch to any audio stream or in-game image on your machine and prints out the transcription or translation to a web browser using Websockets, over OSC (examples are Streaming-overlays or VRChat) or as Text-to-Speech. - Native-UI for Windows (and possibly Linux in the future) - Easy to use for both beginners and advanced users - Transcription / Translation of audio streams - Translation of Texts - Text-to-Speech - Recognition and Translation of in-game images - Displaying the results in a web browser or VRChat, using Websockets or OSC - Loopback audio device support to capture PC audio without additional tools - Save and load configurations - Preview if your selected Audio devices are working - Plugin support for additional features: - - Realtime Subtitles Plugin - - Many Text2Speech Plugins - - Emotion Prediction Plugin - - Currently Playing Song Plugin - - Subtitle Export Plugin - - Retrieval-based Voice Conversion (RVC) Plugin - - Large Language Models Plugin - - and more... === Whispering Tigerはフリーでオープンソースのツールで、あなたのマシンでオーディオストリームやゲーム内の画像を聴いたり見たりすることができ、WebsocketやOSC(Streaming-overlaysやVRChatなど)、Text-to-Speechを使ってWebブラウザに文字起こしや翻訳を出力することができます。 - Windows用のネイティブUI(将来的にはLinuxにも対応予定) - 初心者から上級者まで簡単に使用可能 - 音声ストリームの書き起こし/翻訳 - テキストの翻訳 - 音声合成 - ゲーム内画像の認識と翻訳 - WebsocketまたはOSCを使用して、結果をウェブブラウザまたはVRChatに表示 - 追加ツールなしでPCオーディオをキャプチャするためのループバックオーディオデバイスサポート - 設定の保存と読み込み - 選択したオーディオデバイスが動作しているかどうかのプレビュー - 追加機能のためのプラグインサポート - - リアルタイム字幕プラグイン - - 多くのText2Speechプラグイン - - 感情予測プラグイン - - 現在再生中の曲プラグイン - - 字幕書き出しプラグイン - - 検索ベースの音声変換 (RVC) プラグイン - - 大規模言語モデルプラグイン - - などなど...
Official Website
https://whispering-tiger.github.io/
Details
Whispering Tiger is your all-in-one application for speech-to-text, text-to-text, image-to-text, and more. Communicate with people speaking any one of the 100-200 supported languages (depending on used AI models) Can run completely offline without Internet requirement. If you need help, have some improvement suggestions or just a question, feel free to leave a message on: Github: https://github.com/Sharrnah/whispering-ui Discord: https://discord.gg/V7X6xa2B2v === Whispering Tigerは、音声合成、テキスト合成、画像合成などのオールインワンアプリケーションです。 100-200のサポート言語(使用するAIモデルによって異なります)のいずれかを話す人々とコミュニケーション。 インターネットを必要とせず、完全にオフラインで実行できます。 ヘルプが必要な場合、改善提案がある場合、または単に質問がある場合は、お気軽にメッセージを残してください: Github: https://github.com/Sharrnah/whispering-ui Discord: https://discord.gg/V7X6xa2B2v
requirements
Windows 11/10 CPU: 2.4GHz CPU Quad Core Memory: 16GB Graphics: Geforce GTX 1080 (AMD + Intel GPU Support in Beta using DirectML) Storage: ~20GB
Update informations
**2025-02-02: v1.3.6.1** - [FEATURE] Add option to reorder additional language translations - [FEATURE] Add markdown parsing for Plugin List. - [FEATURE] Add get_last_generation methods for TTS - [TASK] Add Greek F5 TTS Model - [TASK] Add silence after segments of F5-TTS generation - [TASK] F5 processing estimate for multi-segments - [TASK] Update libraries + fix for nltk - [TASK] Add pyctcdecode library - [TASK] Add normalization to F5 TTS - [TASK] unified tts event call - [TASK] Improve handling of deactivated VAD settings - [TASK] Add language_detection_on_each_segment setting - [TASK] Improve backend restart logic - [TASK] Improve main window recognition for dialog parenting - [TASK] Remove obsolete validation of Transcript/Translate textareas - [TASK] Remove DirectSound API from list (Python backend seems incompatible with DirectSound anyway) - [TASK] Reimplement websocket message read limit - [TASK] Improve list seperator style - [BUGFIX] Channel error on MME Audio API with Silero - [BUGFIX] websocket disconnect on receiving generated TTS raw audio - [BUGFIX] Crash on switching TTS Type in Settings tab of main UI window. - [BUGFIX] Only show notification of wrong setting combination when changing it after initial profile loading. - [BUGFIX] TextValueSelect widget invalid defaultIndex error