Selected Works
Pavilion Tokyo 2021 / Generative AI / Data Scraping

TOKYO 2020-2021

真鍋大度は本プロジェクトで企画、コンセプト、インスタレーションの設計と、実際に使用するデータ、AIのライブラリの選定を行った。2020年春から2021年夏にかけて収集した匿名コメント、東京2020大会ビジョン、GPT-2 + rinna、VQGAN+CLIPを接続し、パンデミック下の東京を生成AIによって再構成したインスタレーション。

2021.07.01-09.05 Watari-um open space Tokyo Tokyo FESTIVAL Special 13
TOKYO 2020-2021 installation at Pavilion Tokyo 2021
Photo: ホンマムリョウ(ライゾマティクス)

Context

建築やオブジェによって都市のランドスケープを構想する Pavilion Tokyo 2021 の中で、本作は空間設計とは異なる情報・データ・生成技術のレイヤーから、東京オリンピックとCOVID-19が重なった時期の社会的緊張を扱った。

作品の素材は、公式な大会ビジョンと、匿名のニュースコメントという対照的な言説から構成されている。オリンピックが掲げる言葉と、開催可否や感染状況をめぐる大量の匿名コメントを同じ生成パイプラインに入れることで、祝祭性、政治性、不安、メディア不信が混ざり合う当時の情報環境を可視化した。

生成AIは、完成度の高いイメージを作るためだけではなく、当時のモデルが持っていた未成熟さ、反復、破綻、危うさを含む媒体として使われている。物理的なモザイクレンズによって、通行人にはテキストを読ませず、近づいた鑑賞者だけが判読できる展示構造にした点も、本作の重要な制御設計である。

Technical Details

Google Doc の制作メモに基づき、収集規模、フィルタ条件、モデル、プロンプト設計、出力選定を整理した。

Articles
577
Yahoo!ニュースからコメント数の多い記事を中心に選定。
Comments / Replies
1.25M
コメントと返信を合わせて約125万件を収集。
Fine-tuning Corpus
9,725
390文字以上でフィルタしたコメント / リプライ。
Output Selection
300+
GPT-2生成文は300文字以上を中心に展示素材化。

Data Scraping

Node.js と Puppeteer を用い、厳密な条件ではなく「おおむね1000件以上のコメントが付いている記事」を中心に収集した。後半では、オリンピックやコロナ関連だけに偏らないよう、コメントランキングから主要ニュースを選ぶ方針も検討された。

  • 対象: Yahoo!ニュースのコメント欄とリプライ
  • 記事数: 577件
  • 収集量: 約125万コメント / リプライ
  • 学習用: 390文字以上の9725件

Language Model

Hugging Face Transformers と SentencePiece を基盤に、rinna の `japanese-gpt2-medium` をファインチューニングした。匿名コメント特有の反復、論理の飛躍、集団感情の圧力を、生成文の文体として取り込んでいる。

  • Model: rinna / japanese-gpt2-medium
  • Framework: Transformers
  • Tokenizer: SentencePiece
  • Selection: 300文字以上の出力を中心に使用

Image Generation

画像生成には VQGAN+CLIP を使用した。東京2020大会公式サイトの大会ビジョンから選んだ語句を Google Translate / DeepL で英訳し、画像生成プロンプトとして入力している。

  • VQGAN: CompVis taming-transformers
  • Guidance: OpenAI CLIP
  • Prompt source: Tokyo 2020 Games Vision
  • Output policy: VQGAN+CLIP生成物は原則すべて使用

Exhibition Control

当時の生成モデルには現在一般的なセーフティ機構がほとんどなく、差別的・攻撃的な文が出る可能性があった。展示では、モザイクレンズを物理的な読解制御として用い、意図的に近づいた鑑賞者だけがテキストを読める構造にした。

  • Public readability: 通行人からは判読困難
  • Viewer action: 近距離でのみ読解可能
  • Role: 展示空間そのものをフィルタとして設計

Pipeline

公式スローガンから導かれるイメージと、匿名コメントから生成される「それらしい声」を、同じ作品内で衝突させるための処理系。

01 ScrapeYahoo!ニュース記事、コメント、リプライを Puppeteer で収集。
02 Filter390文字以上を抽出し、学習用コーパスを構築。
03 Fine-tunerinna GPT-2 を匿名コメントの文体へ追加学習。
04 Generate300文字以上の長い生成文を展示テキストとして選定。
05 Prompt大会ビジョンの語句を翻訳し、VQGAN+CLIPへ入力。
06 ExhibitLEDとモザイクレンズを組み合わせ、読解距離を制御。

References

作品アーカイブと、制作メモに記載されていた主要ライブラリ。

Credits

Pavilion Tokyo 2021 / Tokyo Tokyo FESTIVAL Special 13.

Artist
真鍋大度
Technical Direction
石橋素
Hardware Development
毛利恭平
LED Player
浅井裕太
Image / Text Generation
2bit
Technical Support
望月俊孝
Project Management
小幡倫世
Producer
井上貴生
AI Reference Surface

関連する参照ページ

FAQ、用語集、外部参照、計測、AI用索引へ移動できます。それぞれのリンク先で何を確認できるかを明記しました。