Latent Granular — AI潜在空間変調グラニュラーシンセサイザー

概要

課題

グラニュラーシンセサイザーは強力だが、その変調ソースは通常、確率的（ランダムジッター/スプレー）、手動（LFO、エンベロープ）、または浅い音響特徴量（トランジェント検出、スペクトル重心）に基づいている。これらはいずれもサンプルのアイデンティティと意味的に結びついていない。

アプローチ

Latent Granularは、ロード時にサンプルを学習済み潜在空間にエンコードし、時変潜在ベクトルz(t)を抽出する。このベクトルはグラニュラーエンジンを駆動するパラメータカーブにマッピングされ — グレインサイズ、密度、ピッチ、ジッター、スプレー — 純粋に合成的ではなく、サンプルの特性と相関した変調を生成する。

コアイノベーション

モデルの内部表現とDSPパラメータの数学的結合が、有機的で再現性のある、サンプル依存の動きを生み出す。風の音は密度と分散を駆動する。パーカッシブなテクスチャはグレインサイズとピッチスプレッドを変調する。潜在軌跡が変調ソースとなる。

対象ユーザー

サウンドデザイナー、電子音楽プロデューサー、そしてゲームオーディオや映画のアンビエンスに取り組むクリエイター。手動の変調プログラミングなしに、生きているように感じられるグラニュラーテクスチャを求める人々に。

テクニカルアーキテクチャ

データフロー

オーディオファイル

→

デコード

→

前処理

→

エンコーダ

→

z(t) 潜在

→

LatentMapper

→

p(t) カーブ

→

グラニュラーエンジン

→

オーディオ出力

潜在マッピング

// Mapping strategy (v1)
u = W * z_norm + b          // linear projection
p = squash(u) → param range  // tanh/sigmoid + bounds
param = base + depth * (curve - 0.5)  // centered modulation

// XY pad bilinearly interpolates among 4 mapping presets (W, b)
// RC smoothing applied per-parameter to avoid zippering

モジュール境界

SampleManager オーディオファイルをデコード → SampleData（元のSR/チャンネル + UIプレビュー）
Preprocessor リサンプル、モノミックスダウン、エンコーダ入力用に正規化
AnalysisJob 進捗/キャンセル付きバックグラウンドオーケストレーション、不変のAnalysisResultを生成
Encoder ニューラルエンコーダを実行、LatentSeries z(t)を出力
LatentPostProcess 正規化、オプションのノイズ除去/スムージング、オプションのPCA/ホワイトニング
LatentMapper マッピングプリセット + ユーザーdepthでz(t) → ModCurves p(t)に変換
CacheStore ハッシュキー（パス + mtime + モデルバージョン）でAnalysisResultを保存/復元
ParamCombiner ベースパラメータ + UIマクロ + p(t)をマージ、スムージング/クランプを適用
GranularEngine リアルタイム合成 — グレインプール、スケジューラ、サンプルリーダー、ウィンドウイング、ミキシング
UI 波形表示 + 潜在オーバーレイ、XYパッド、進捗、キャッシュ/モデルステータス

仕様

パラメータ	値	備考
モデルSR	48 kHz	エンコーダの一貫性のため入力をリサンプル
潜在制御レート	100 Hz	制御レートで保存、オーディオレートで補間
潜在次元	64–128	モデルの選択に依存
ターゲットパラメータ	6–10	音楽性のため少数に抑える
RT CPU負荷	≤ 10%	48 kHz / 128サンプル / 1ボイス / 30グレイン/秒
メモリ（5分ステレオ）	≤ 200 MB	サンプル + 潜在カーブ + プレビュー + オーバーヘッド
キャッシュヒットロード	≤ 0.5 s	ロードから再生まで

スレッド安全性モデル

オーディオスレッドはグラニュラー合成のみを実行 — ロックなし、アロケーションなし、ディスクIOなし、モデル推論なし。バックグラウンドスレッドがファイルデコード、前処理、エンコーダ推論、カーブ生成を処理する。通信には不変データブロブのアトミックポインタスワップを使用。すべてのランダム性はシード付きで、バッファサイズやサンプルレートをまたいで決定論的に再現可能。

ユーザーワークフロー

サウンドファイルをプラグインにドラッグ＆ドロップ。対応フォーマット: wav, aiff, flac, mp3。
プラグインがバックグラウンドでファイルをデコード、分析、エンコード。進捗とキャンセルがUIに表示される。
波形表示に潜在/特徴オーバーレイが追加される — セグメント、強度、スペクトルマーカー。
MIDIで演奏。グラニュラー楽器がロードされたサンプルの潜在軌跡に応答する。
Latent XYパッドを探索 — マッピング解釈のマクロコントロール。AutoMapの深度で変調強度を調整。
標準的なグラニュラーコントロールを微調整: サイズ、密度、ポジション、ピッチ、ジッター、スプレー。
オプション: グレインのフリーズ、別モデルでの再スキャン、キャッシュの保存、プリセットの保存。

グラニュラーパラメータセット

グレインサイズ

各グレインウィンドウの持続時間。潜在変調が有機的なミクロからマクロへの遷移を生み出す。

密度

1秒あたりのグレイン数。高密度は連続的なテクスチャを生成し、低密度は離散的な粒子を明らかにする。

ポジション / スキャン

サンプルバッファ内の読み取り位置。潜在カーブが非線形スキャンパターンを駆動する。

ピッチ / スプレッド

グレインごとのトランスポジションとピッチ偏差。潜在空間が調和的 vs. 非調和的なスプレッディングを伝える。

ジッター

タイミングとピッチのランダムネス。オートメーション下での決定論的再現のためにシード付き。

スプレー

ステレオとポジションの分散。サンプルの音色的進化と相関した空間的な動きを生み出す。

フォールバック動作

ニューラルモデルが見つからない、エンコードに失敗した、またはユーザーがMLを無効にした場合、プラグインはクラシックな音響特徴量（RMS、スペクトル重心、オンセット強度）から変調カーブを生成する — または純粋に手動のグラニュラー楽器として動作する。サンプルのロードは決して楽器を壊さない。利用可能な変調ソースが変わるだけだ。

リサーチ & 先行技術

モデル候補

RAVE (IRCAM)

Realtime Audio Variational autoEncoder。リアルタイムオーディオMLで広く使用されている。潜在空間の探索に自然にフィットし、エンコーダが意味のある音色軌跡を生成する。

ニューラルオーディオコーデック（EnCodecスタイル）

強力な潜在表現。構造は「セマンティック」よりも「コーディング」寄りかもしれないが、埋め込みは変調に潜在的に有用。

拡散モデル

プラグイン推論には一般的に重すぎる。オフラインツーリングや将来の拡張に適している。

グラニュラーの景観

Output Portal

マクロコントロールとモーション付きの音楽的なグラニュラーテクスチャ — LFO/エンベロープ駆動。

Audio Damage Quanta 2

強力なグラニュラーエンジン + 変調 + エフェクト。サンプルインポートワークフロー。

Arturia Pigments

グラニュラーエンジン + モジュレーションマトリクスを備えたモダンなシンセUX。業界標準。

Synplant 2 (Sonic Charge)

遺伝的アルゴリズムによりオーディオからシンセパッチをリバースエンジニアリング。パラメータ推論であり、潜在変調ではない。

ポジショニング

グラニュラー合成やML支援サウンドデザインの製品は存在するが、潜在軌跡をクラシックなDSPエンジンの時変変調ソースとして明示的に公開しているものはない。これがLatent Granularが占めるギャップである — 学習された表現の表現力と、グラニュラー合成の親しみやすさとコントロールを組み合わせる。

ロードマップ

v1 マイルストーン

グラニュラーインストゥルメントコア

安定したグレインエンジン、UI、MIDI再生、プリセットシステム。プラグインが手動グラニュラー楽器として動作する。

ロード時分析パイプライン

バックグラウンドデコード + 特徴量抽出（非ML）+ カーブルーティング。スレッドモデルとUXフローを実証する。

エンコーダ統合

ONNXエンコーダ + z(t)抽出 + LatentMapper → パラメータカーブ。コアメカニクスが始動する。

キャッシュ & ポリッシュ

キャッシュの保存/復元、堅牢なエラーハンドリング、パフォーマンスチューニング、マッピングマトリクスを中心に設計されたプリセット。

将来の拡張（v2+）

GPU推論オプション

ハードウェアが利用可能な場合、実行プロバイダ（CoreML / DirectML / CUDA）を自動選択。CPUのみのフォールバックは保持。

ストリーミングエンコーダ

ライブ入力から20–50msチャンクでz(t)を生成し、楽器+エフェクトのハイブリッドモードを実現。

ユーザー学習マッピング

ユーザーの例（A/Bテイク、マクロジェスチャー）から軽量なオンデバイス回帰でW/bを学習。

セマンティック埋め込み

CLAP/Wav2Vec2スタイルの埋め込みによるタグ付け、セグメント分類、プリセット提案。

CLAPフォーマットサポート

VST3と並行して、より豊かな変調ルーティングとエクスプレッシブノートをサポート。

テックスタック

フレームワーク

JUCE (C++17/20)

業界標準のオーディオプラグインフレームワーク。VST3統合、オーディオI/O、MIDI、クロスプラットフォームUIを処理。

推論

ONNX Runtime

CPU、CoreML、DirectML、CUDA/TensorRT向けの実行プロバイダを持つポータブルなニューラルモデル推論。