GUI対応統合型AI VTuberシステム

AI-VTuber-System

GUIアプリとして動作する統合型AI VTuberシステム。 Whisper音声認識・Gemini LLM・VTube Studio連携をワンパッケージで提供。 Windows専用・NVIDIA GPU必須。

開発者 Karaage3

ライセンス完全無料

プラットフォーム Windows専用

GPU NVIDIA必須

日本語対応あり

Whisper STT Gemini LLM VTube Studio連携 GUI対応日本語対応 NVIDIA GPU必須

概要

AI-VTuber-SystemはKaraage3が開発したWindows向けの統合型AI VTuberシステムです。 GUIアプリとして動作し、Whisperによる音声認識、Gemini APIによるLLM応答生成、 VTube Studioとの連携によるLive2Dアバター制御をまとめて提供します。 NVIDIA GPUが必須ですが、日本語に対応した統合システムとして日本のVTuber向けに設計されています。 VOICEVOX等のTTSとの組み合わせで、完全なAI VTuberシステムを構築できます。

主な特徴

🎤

Whisper音声認識

OpenAI Whisperによる高精度な音声認識。日本語も精度よく認識できる。

🤖

Gemini LLM連携

Google Gemini APIを使用して視聴者コメントや会話に自然な返答を生成する。

🎭

VTube Studio連携

VTube StudioのAPIを通じてLive2Dアバターの表情や動きを制御できる。

🖥️

GUIアプリ

コマンドラインなしで操作できるGUIを備え、設定が視覚的に行える。

🗣️

TTS対応

VOICEVOX等の外部TTSと組み合わせて音声読み上げも実現できる。

🇯🇵

日本語対応

日本語でのUI・ドキュメント対応。日本のVTuber向けに設計されたシステム。

メリット / デメリット

メリット

GUIアプリでコマンドラインなしに操作できる
Whisper+Gemini+VTube Studioが一体化した統合パッケージ
日本語対応でドキュメントも日本語で読める
Live2Dアバター制御まで含む本格的なシステム
完全無料・オープンソース

デメリット

NVIDIA GPU必須でハードウェアの制約が大きい
Windows専用でmacOS・Linuxでは動作しない
Gemini APIキーが必要（無料枠あり）
VTube Studioも別途インストールが必要
初期セットアップが複数のソフトウェアにわたり複雑

システム要件

Windows専用

GPU

NVIDIA GPU必須

必須ソフト

Python 3.x / VTube Studio

APIキー

Gemini APIキー必要

マイク

音声認識に必要

OBS連携

VTube Studio経由で対応

GPU要件

GPU	VRAM	Whisperモデル	動作
RTX 3060以上	8GB以上	large-v3	推奨
RTX 3050	4-6GB	medium	動作可
CPU only	-	tiny/base	推奨しない

料金

基本無料

ソフトウェア無料 / Gemini API無料枠あり

本ソフトウェア自体は無料。Gemini APIは無料枠（1分15リクエスト等）あり。大規模利用・商用利用の場合はGemini APIの有料プランが必要になる場合あり。 VTube Studioは無料版あり（PC版）。

導入手順

前提ソフトウェアをインストール

Python 3.x、CUDA Toolkit、VTube Studioをインストールする。

リポジトリをクローン

git clone https://github.com/Karaage3/AI-VTuber-System.git

依存パッケージをインストール

pip install -r requirements.txt

WhisperやGemini SDKなど必要なパッケージを一括インストール。

Gemini APIキーを設定

Google AI StudioでGemini APIキーを取得し、設定ファイルまたは環境変数に設定する。

VTube StudioのAPIを有効化してアプリを起動

VTube StudioでAPI連携を有効にし、AI-VTuber-Systemを起動して動作確認する。

運営イメージ

マイクで発話

→

Whisperで認識

→

Geminiで返答生成

→

TTSで読み上げ

→

VTS経由でLive2D動作

視聴者またはVTuber自身がマイクに話しかけると、WhisperがリアルタイムでSTT変換し、 Gemini APIが返答テキストを生成する。VOICEVOX等のTTSで音声化し、 VTube Studio APIを通じてLive2Dアバターが反応して話す一連のフローが自動化される。

こんな人におすすめ / おすすめしない