街中を歩きながら撮影した動画と、そこに含まれる鼻歌の音声。このプロジェクトは、その二つの素材から映像の特徴量(動き・明るさ・人物配置)と音声の特徴量(音量・ピッチ・スペクトル)を解析し、サウンドスケープやミニマルテクノを自動生成する統合パイプラインです。
鼻歌は「演奏」ではなく「プロデューサーマクロ」として機能します。声の大きさ、高さ、音色がマクロ制御値(Intensity / Brightness / Space)に変換され、映像特徴量と統合されて音響パラメータを一貫して駆動します。
3層アーキテクチャ(共通解析 → アダプタ → ジャンル固有エンジン)を採用。プリセットでジャンルと出力形式を切り替え、全処理をPython + FFmpegで統一しています。
ミニマルテクノ(バレアリック寄り)のテンプレートを、鼻歌と映像特徴量で制御。BPM固定、Kick/Hat/Perc/Bass/Pad/FXの各トラックをマクロで動かす。オフライン生成またはDAWへのリプレイ送出(MIDI/OSC)に対応。
スタンドアロンで映像解析+音響合成を完結。5レイヤ構成(Bed/Drone/Granular/Glitch/FX)のサウンドスケープを生成し、オーバーレイ合成映像と共に出力。セクション制御(Intro/Explore/Release/Outro)による時間構造。
入力動画のメタ取得、映像のCFR化(30fps)、音声の48kHzリサンプル。基準タイムラインを定義。
30fps全フレームでbrightness、contrast、color_temp、edge_density、motion_energy、motion_highfreqを算出。連続制御に適した安定特徴量。
人物検出(5-10fps)、シーン分類(1Hz)、カット検出。全フレーム推論はコスト過大のため間引き+平滑化が前提。
鼻歌から voice_loud、voiced、f0_hz、centroid、flatnessを抽出。声を"楽器化"せず、マクロ制御に落とし込む。
20Hz固定のControl Stream生成。映像+音声の特徴量をマクロ値に統合。EMA平滑化(configurable tau)。イベント検出(PhraseStart/PhraseEnd/Accent/CutDetected/PersonEnter/Exit)。
"音楽生成"ではなく"音響合成"。5レイヤ(Bed/Drone/Granular/Glitch/FX)をControl Streamで駆動。ラウドネス整形(-15 LUFS target, -1.0 dBFS true peak)、soft clip + brick-wall limiter。
映像に解析結果をオーバーレイ合成。debug版(情報多め)とclean版(展示用・情報最小限)の2モード。人物bbox、ゲージ、motion表示。
オーバーレイ映像と生成音声をA/V同期でマルチプレクス。最終出力 final.mp4。
入力から抽出された特徴量は、20Hz固定のControl Streamに統合されます。共通マクロ(Layer 2)をジャンル固有アダプタが変換し、各エンジンのパラメータを駆動します。
重要なのは「声だけで全部決めない」こと。映像の動き・明るさが入ることで、「街中を歩く」体験に紐づいた音響が生まれます。
voiced遷移を検出。無声→有声でPhraseStart、600ms以上の無声継続でPhraseEnd。フレーズ構造を駆動。
Intensityの急上昇(delta > 0.3)を検出。短い粒やグリッチの発火トリガー。
cut_scoreが閾値超え(>= 0.4)。Releaseセクションでのみグリッチを許可。
people_countの増減を検出。空間と質感の変化をトリガー。
hanauta render \ --input input.mp4 \ --preset ambient_glitch_60s_v1.json \ --outdir output/job_xxx \ --overlay debug|clean|none \ --stems \ --no-cache
Ingest + Normalize、AudioAnalysis (VAD/F0/spectral)、Types + Preset + Cache + Pipeline DAG + CLI。95 tests。
VideoLowLevel + VideoSemantic + Sync + Fusion + SoundscapeAdapter + 5-Layer Synthesis (Bed/Drone/Granular/Glitch/FX) + Mixer (LUFS/-1dBFS) + Overlay + Mux + Export。E2Eテストで決定性検証済み。211 tests。
TechnoAdapter (Energy/Drive/Tension/RootNote)、Drums/Bass/Pad/FX Engine、リプレイ送出 (OSC/MIDI)。
Preset切替 (CLI一本)、回帰テスト、エラーハンドリング統合 (終了コード/フォールバック)。