GUI対応 統合型AI VTuberシステム
AI-VTuber-System
GUIアプリとして動作する統合型AI VTuberシステム。 Whisper音声認識・Gemini LLM・VTube Studio連携をワンパッケージで提供。 Windows専用・NVIDIA GPU必須。
Whisper STT
Gemini LLM
VTube Studio連携
GUI対応
日本語対応
NVIDIA GPU必須
概要
AI-VTuber-SystemはKaraage3が開発したWindows向けの統合型AI VTuberシステムです。 GUIアプリとして動作し、Whisperによる音声認識、Gemini APIによるLLM応答生成、 VTube Studioとの連携によるLive2Dアバター制御をまとめて提供します。 NVIDIA GPUが必須ですが、日本語に対応した統合システムとして日本のVTuber向けに設計されています。 VOICEVOX等のTTSとの組み合わせで、完全なAI VTuberシステムを構築できます。
主な特徴
Whisper音声認識
OpenAI Whisperによる高精度な音声認識。日本語も精度よく認識できる。
Gemini LLM連携
Google Gemini APIを使用して視聴者コメントや会話に自然な返答を生成する。
VTube Studio連携
VTube StudioのAPIを通じてLive2Dアバターの表情や動きを制御できる。
GUIアプリ
コマンドラインなしで操作できるGUIを備え、設定が視覚的に行える。
TTS対応
VOICEVOX等の外部TTSと組み合わせて音声読み上げも実現できる。
日本語対応
日本語でのUI・ドキュメント対応。日本のVTuber向けに設計されたシステム。
メリット / デメリット
メリット
- GUIアプリでコマンドラインなしに操作できる
- Whisper+Gemini+VTube Studioが一体化した統合パッケージ
- 日本語対応でドキュメントも日本語で読める
- Live2Dアバター制御まで含む本格的なシステム
- 完全無料・オープンソース
デメリット
- NVIDIA GPU必須でハードウェアの制約が大きい
- Windows専用でmacOS・Linuxでは動作しない
- Gemini APIキーが必要(無料枠あり)
- VTube Studioも別途インストールが必要
- 初期セットアップが複数のソフトウェアにわたり複雑
システム要件
OS
Windows専用
GPU
NVIDIA GPU必須
必須ソフト
Python 3.x / VTube Studio
APIキー
Gemini APIキー必要
マイク
音声認識に必要
OBS連携
VTube Studio経由で対応
GPU要件
| GPU | VRAM | Whisperモデル | 動作 |
|---|---|---|---|
| RTX 3060以上 | 8GB以上 | large-v3 | 推奨 |
| RTX 3050 | 4-6GB | medium | 動作可 |
| CPU only | - | tiny/base | 推奨しない |
料金
基本無料
ソフトウェア無料 / Gemini API無料枠あり
本ソフトウェア自体は無料。Gemini APIは無料枠(1分15リクエスト等)あり。
大規模利用・商用利用の場合はGemini APIの有料プランが必要になる場合あり。
VTube Studioは無料版あり(PC版)。
導入手順
1
前提ソフトウェアをインストール
Python 3.x、CUDA Toolkit、VTube Studioをインストールする。
2
リポジトリをクローン
git clone https://github.com/Karaage3/AI-VTuber-System.git
3
依存パッケージをインストール
pip install -r requirements.txt
WhisperやGemini SDKなど必要なパッケージを一括インストール。
4
Gemini APIキーを設定
Google AI StudioでGemini APIキーを取得し、設定ファイルまたは環境変数に設定する。
5
VTube StudioのAPIを有効化してアプリを起動
VTube StudioでAPI連携を有効にし、AI-VTuber-Systemを起動して動作確認する。
運営イメージ
マイクで発話
→
Whisperで認識
→
Geminiで返答生成
→
TTSで読み上げ
→
VTS経由でLive2D動作
視聴者またはVTuber自身がマイクに話しかけると、WhisperがリアルタイムでSTT変換し、 Gemini APIが返答テキストを生成する。VOICEVOX等のTTSで音声化し、 VTube Studio APIを通じてLive2Dアバターが反応して話す一連のフローが自動化される。
こんな人におすすめ / おすすめしない
おすすめな人
- Windows + NVIDIA GPU環境を持っているVTuber
- Live2Dアバターを使った本格的なAI VTuberを目指す人
- 日本語ドキュメントでセットアップしたい人
- Gemini APIを活用したい人
- GUIで操作できる統合システムを求める人
おすすめしない人
- NVIDIA GPU非搭載のPC(AMD GPU、Mac、低スペック機)の人
- macOSやLinuxで動かしたい人
- PNGtuberで十分な人(Live2D不要の場合)
- API費用を一切かけたくない人
- 複雑なセットアップを避けたい初心者