ニューラルモデルの潜在表現が音楽的に意味のある変調ソースとなる、サンプルベースのグラニュラー楽器 — ランダムなLFOを、サウンドの特性に紐づいたパラメータカーブに置き換える。
グラニュラーシンセサイザーは強力だが、その変調ソースは通常、確率的(ランダムジッター/スプレー)、手動(LFO、エンベロープ)、または浅い音響特徴量(トランジェント検出、スペクトル重心)に基づいている。これらはいずれもサンプルのアイデンティティと意味的に結びついていない。
Latent Granularは、ロード時にサンプルを学習済み潜在空間にエンコードし、時変潜在ベクトルz(t)を抽出する。このベクトルはグラニュラーエンジンを駆動するパラメータカーブにマッピングされ — グレインサイズ、密度、ピッチ、ジッター、スプレー — 純粋に合成的ではなく、サンプルの特性と相関した変調を生成する。
モデルの内部表現とDSPパラメータの数学的結合が、有機的で再現性のある、サンプル依存の動きを生み出す。風の音は密度と分散を駆動する。パーカッシブなテクスチャはグレインサイズとピッチスプレッドを変調する。潜在軌跡が変調ソースとなる。
サウンドデザイナー、電子音楽プロデューサー、そしてゲームオーディオや映画のアンビエンスに取り組むクリエイター。手動の変調プログラミングなしに、生きているように感じられるグラニュラーテクスチャを求める人々に。
// Mapping strategy (v1) u = W * z_norm + b // linear projection p = squash(u) → param range // tanh/sigmoid + bounds param = base + depth * (curve - 0.5) // centered modulation // XY pad bilinearly interpolates among 4 mapping presets (W, b) // RC smoothing applied per-parameter to avoid zippering
| パラメータ | 値 | 備考 |
|---|---|---|
| モデルSR | 48 kHz | エンコーダの一貫性のため入力をリサンプル |
| 潜在制御レート | 100 Hz | 制御レートで保存、オーディオレートで補間 |
| 潜在次元 | 64–128 | モデルの選択に依存 |
| ターゲットパラメータ | 6–10 | 音楽性のため少数に抑える |
| RT CPU負荷 | ≤ 10% | 48 kHz / 128サンプル / 1ボイス / 30グレイン/秒 |
| メモリ(5分ステレオ) | ≤ 200 MB | サンプル + 潜在カーブ + プレビュー + オーバーヘッド |
| キャッシュヒットロード | ≤ 0.5 s | ロードから再生まで |
オーディオスレッドはグラニュラー合成のみを実行 — ロックなし、アロケーションなし、ディスクIOなし、モデル推論なし。バックグラウンドスレッドがファイルデコード、前処理、エンコーダ推論、カーブ生成を処理する。通信には不変データブロブのアトミックポインタスワップを使用。すべてのランダム性はシード付きで、バッファサイズやサンプルレートをまたいで決定論的に再現可能。
各グレインウィンドウの持続時間。潜在変調が有機的なミクロからマクロへの遷移を生み出す。
1秒あたりのグレイン数。高密度は連続的なテクスチャを生成し、低密度は離散的な粒子を明らかにする。
サンプルバッファ内の読み取り位置。潜在カーブが非線形スキャンパターンを駆動する。
グレインごとのトランスポジションとピッチ偏差。潜在空間が調和的 vs. 非調和的なスプレッディングを伝える。
タイミングとピッチのランダムネス。オートメーション下での決定論的再現のためにシード付き。
ステレオとポジションの分散。サンプルの音色的進化と相関した空間的な動きを生み出す。
ニューラルモデルが見つからない、エンコードに失敗した、またはユーザーがMLを無効にした場合、プラグインはクラシックな音響特徴量(RMS、スペクトル重心、オンセット強度)から変調カーブを生成する — または純粋に手動のグラニュラー楽器として動作する。サンプルのロードは決して楽器を壊さない。利用可能な変調ソースが変わるだけだ。
RAVE (IRCAM)
Realtime Audio Variational autoEncoder。リアルタイムオーディオMLで広く使用されている。潜在空間の探索に自然にフィットし、エンコーダが意味のある音色軌跡を生成する。
ニューラルオーディオコーデック(EnCodecスタイル)
強力な潜在表現。構造は「セマンティック」よりも「コーディング」寄りかもしれないが、埋め込みは変調に潜在的に有用。
拡散モデル
プラグイン推論には一般的に重すぎる。オフラインツーリングや将来の拡張に適している。
Output Portal
マクロコントロールとモーション付きの音楽的なグラニュラーテクスチャ — LFO/エンベロープ駆動。
Audio Damage Quanta 2
強力なグラニュラーエンジン + 変調 + エフェクト。サンプルインポートワークフロー。
Arturia Pigments
グラニュラーエンジン + モジュレーションマトリクスを備えたモダンなシンセUX。業界標準。
Synplant 2 (Sonic Charge)
遺伝的アルゴリズムによりオーディオからシンセパッチをリバースエンジニアリング。パラメータ推論であり、潜在変調ではない。
グラニュラー合成やML支援サウンドデザインの製品は存在するが、潜在軌跡をクラシックなDSPエンジンの時変変調ソースとして明示的に公開しているものはない。これがLatent Granularが占めるギャップである — 学習された表現の表現力と、グラニュラー合成の親しみやすさとコントロールを組み合わせる。
GPU推論オプション
ハードウェアが利用可能な場合、実行プロバイダ(CoreML / DirectML / CUDA)を自動選択。CPUのみのフォールバックは保持。
ストリーミングエンコーダ
ライブ入力から20–50msチャンクでz(t)を生成し、楽器+エフェクトのハイブリッドモードを実現。
ユーザー学習マッピング
ユーザーの例(A/Bテイク、マクロジェスチャー)から軽量なオンデバイス回帰でW/bを学習。
セマンティック埋め込み
CLAP/Wav2Vec2スタイルの埋め込みによるタグ付け、セグメント分類、プリセット提案。
CLAPフォーマットサポート
VST3と並行して、より豊かな変調ルーティングとエクスプレッシブノートをサポート。
業界標準のオーディオプラグインフレームワーク。VST3統合、オーディオI/O、MIDI、クロスプラットフォームUIを処理。
CPU、CoreML、DirectML、CUDA/TensorRT向けの実行プロバイダを持つポータブルなニューラルモデル推論。
ロード時のエンコーダのみ。オーディオフレームから潜在ベクトルz(t)を抽出。v1ではデコーダ不要。
v1のプライマリプラグインフォーマット。AU/AAXおよびCLAPは将来のリリースで検討中。