V
AI-VTuber-System
Karaage3 / AI-VTuber-System
GUI対応 統合型AI VTuberシステム

AI-VTuber-System

GUIアプリとして動作する統合型AI VTuberシステム。 Whisper音声認識・Gemini LLM・VTube Studio連携をワンパッケージで提供。 Windows専用・NVIDIA GPU必須。

開発者 Karaage3
ライセンス 完全無料
プラットフォーム Windows専用
GPU NVIDIA必須
日本語対応 あり
Whisper STT Gemini LLM VTube Studio連携 GUI対応 日本語対応 NVIDIA GPU必須
概要

AI-VTuber-SystemはKaraage3が開発したWindows向けの統合型AI VTuberシステムです。 GUIアプリとして動作し、Whisperによる音声認識、Gemini APIによるLLM応答生成、 VTube Studioとの連携によるLive2Dアバター制御をまとめて提供します。 NVIDIA GPUが必須ですが、日本語に対応した統合システムとして日本のVTuber向けに設計されています。 VOICEVOX等のTTSとの組み合わせで、完全なAI VTuberシステムを構築できます。

主な特徴
🎤
Whisper音声認識
OpenAI Whisperによる高精度な音声認識。日本語も精度よく認識できる。
🤖
Gemini LLM連携
Google Gemini APIを使用して視聴者コメントや会話に自然な返答を生成する。
🎭
VTube Studio連携
VTube StudioのAPIを通じてLive2Dアバターの表情や動きを制御できる。
🖥️
GUIアプリ
コマンドラインなしで操作できるGUIを備え、設定が視覚的に行える。
🗣️
TTS対応
VOICEVOX等の外部TTSと組み合わせて音声読み上げも実現できる。
🇯🇵
日本語対応
日本語でのUI・ドキュメント対応。日本のVTuber向けに設計されたシステム。
メリット / デメリット
メリット
  • GUIアプリでコマンドラインなしに操作できる
  • Whisper+Gemini+VTube Studioが一体化した統合パッケージ
  • 日本語対応でドキュメントも日本語で読める
  • Live2Dアバター制御まで含む本格的なシステム
  • 完全無料・オープンソース
デメリット
  • NVIDIA GPU必須でハードウェアの制約が大きい
  • Windows専用でmacOS・Linuxでは動作しない
  • Gemini APIキーが必要(無料枠あり)
  • VTube Studioも別途インストールが必要
  • 初期セットアップが複数のソフトウェアにわたり複雑
システム要件
OS
Windows専用
GPU
NVIDIA GPU必須
必須ソフト
Python 3.x / VTube Studio
APIキー
Gemini APIキー必要
マイク
音声認識に必要
OBS連携
VTube Studio経由で対応
GPU要件
GPU VRAM Whisperモデル 動作
RTX 3060以上 8GB以上 large-v3 推奨
RTX 3050 4-6GB medium 動作可
CPU only - tiny/base 推奨しない
料金
基本無料
ソフトウェア無料 / Gemini API無料枠あり
本ソフトウェア自体は無料。Gemini APIは無料枠(1分15リクエスト等)あり。 大規模利用・商用利用の場合はGemini APIの有料プランが必要になる場合あり。 VTube Studioは無料版あり(PC版)。
導入手順
1
前提ソフトウェアをインストール
Python 3.x、CUDA Toolkit、VTube Studioをインストールする。
2
リポジトリをクローン
git clone https://github.com/Karaage3/AI-VTuber-System.git
3
依存パッケージをインストール
pip install -r requirements.txt
WhisperやGemini SDKなど必要なパッケージを一括インストール。
4
Gemini APIキーを設定
Google AI StudioでGemini APIキーを取得し、設定ファイルまたは環境変数に設定する。
5
VTube StudioのAPIを有効化してアプリを起動
VTube StudioでAPI連携を有効にし、AI-VTuber-Systemを起動して動作確認する。
運営イメージ
マイクで発話
Whisperで認識
Geminiで返答生成
TTSで読み上げ
VTS経由でLive2D動作

視聴者またはVTuber自身がマイクに話しかけると、WhisperがリアルタイムでSTT変換し、 Gemini APIが返答テキストを生成する。VOICEVOX等のTTSで音声化し、 VTube Studio APIを通じてLive2Dアバターが反応して話す一連のフローが自動化される。

こんな人におすすめ / おすすめしない
おすすめな人
  • Windows + NVIDIA GPU環境を持っているVTuber
  • Live2Dアバターを使った本格的なAI VTuberを目指す人
  • 日本語ドキュメントでセットアップしたい人
  • Gemini APIを活用したい人
  • GUIで操作できる統合システムを求める人
おすすめしない人
  • NVIDIA GPU非搭載のPC(AMD GPU、Mac、低スペック機)の人
  • macOSやLinuxで動かしたい人
  • PNGtuberで十分な人(Live2D不要の場合)
  • API費用を一切かけたくない人
  • 複雑なセットアップを避けたい初心者