AIビデオ制作のためのハッキングのヒント：JSON構造化されたキューで画面を正確にコントロールする

2025-07-07

1.4 K

現在、AIによる映像生成技術は急速に発展している。撮影 Google Veo 3Conch AIのようなツールやKoringのようなモデルは、初期のファジーな生成段階を超え、映画のような質感に近いビデオクリップを生成するようになった。

第一に、プロでないユーザーは漠然としたアイデアや散漫なキーワードしか持っていないことが多く、映画やテレビ番組制作の仕様に合致したプロフェッショナルなキューを独自に作成することが難しいこと。第二に、自然言語の曖昧さとAIの「理解」との間に乖離があり、しばしば期待値から逸脱した新しいキューが生成されてしまうことである。つ目は、自然言語の曖昧さとAIの "理解 "との間に乖離があることで、しばしば期待結果から逸脱するキューが生成され、修正とデバッグを繰り返す必要がある。

最近、ソーシャルメディア『X』のあるブロガーが、次のような斬新な解決策を披露した。 JSON フォーマット Google Veo 3 キュー・ワードを書く。このアプローチは、上記のペインポイントを解決するためのまったく新しい考え方を提供する。

そのブロガーは次のように語っている。 JSON キュー・ワードは、オリジナルの英語版と中国語翻訳版の両方が収録されている：

英語のキューワード：

{
"shot":{
"composition":"Medium shot, vertical format, handheld camera",
"camera_motion":"slight natural shake",
"frame_rate":"30fps",
"film_grain":"none"
},
"subject":{
"description":"A towering, snow-white Yeti with shaggy fur and expressive blue eyes",
"wardrobe":"slightly oversized white T-shirt with the name 'Emily' in bold, blood-red letters across the chest"
},
"scene":{
"location":"lush forest clearing",
"time_of_day":"daytime",
"environment":"sunlight filtering through the canopy, creating dappled light patterns on the forest floor"
},
"visual_details":{
"action":"Yeti holds a smartphone on a selfie stick, speaking excitedly to the camera before letting out a dramatic scream",
"props":"smartphone mounted on a selfie stick"
},
"cinematography":{
"lighting":"natural sunlight with soft shadows",
"tone":"lighthearted and humorous"
},
"audio":{
"ambient":"rustling leaves, distant bird calls",
"dialogue":{
"character":"Yeti",
"line":"Veo3 Fast is now available in the Gemini app—three videos per day! People are going to prompt me like crazy!",
"subtitles":false
},
"effects":"sudden loud scream, flapping wings of startled birds"
},
"color_palette":"naturalistic with earthy greens and browns; bold red lettering on shirt provides contrast"
}

中国版キューワード：

{
"镜头":{
"构图":"中景，竖屏格式，手持相机",
"相机运动":"轻微自然摇晃",
"帧率":"30fps",
"胶片颗粒":"无"
},
"主体":{
"描述":"一只高大的雪白雪人，毛发蓬松，眼睛充满表现力，呈蓝色",
"服装":"略微过大的白色T恤，胸前用粗体血红色字母写着‘Emily’"
},
"场景":{
"位置":"郁郁葱葱的森林空地",
"时间":"白天",
"环境":"阳光透过树冠洒下，形成斑驳的光影模式在森林地面"
},
"视觉细节":{
"动作":"雪人拿着自拍杆上的智能手机，兴奋地对着镜头讲话，随后发出一声戏剧性的尖叫",
"道具":"安装在自拍杆上的智能手机"
},
"摄影":{
"照明":"自然阳光，柔和的阴影",
"基调":"轻松幽默"
},
"音频":{
"环境音":"沙沙的树叶声，远处的鸟鸣声",
"对白":{
"角色":"雪人",
"台词":"Veo3 Fast现在可以在Gemini应用中使用——每天三条视频！人们会疯狂地给我发提示！",
"字幕":false
},
"音效":"突然的大声尖叫，惊飞的鸟翼拍打声"
},
"色彩调色板":"自然主义风格，带有泥土般的绿色和棕色；T恤上的鲜艳红色字母提供了对比"
}

上記の英語のキュー・ワードを使ってGoogle Veo 3 高品質なASMRスタイルのショートビデオが作成された。

なぜJSON形式の方が良いのですか？

JSON(JavaScript Object Notation）は、次のようなキーと値のペアでデータを編成する軽量データ交換フォーマットである。 "镜头": { ... }データの入れ子に対応。データの入れ子に対応し、人間が読みやすく、機械が解析しやすい明確な構造を持っている。

当 JSON AIのキューワードに使えば、その利点は明らかだ。漠然としたアイデアを、カメラ、被写体、シーン、照明、音響効果など、複数の次元をカバーする一連の具体的で構造化されたパラメーターに分解する。この方法は包括的であるだけでなく、指示も非常に明確である。

大規模言語モデル（LLM）は、このような構造化データを自然に好む。なぜなら、LLMの学習データには大量のコードと構造化テキストが含まれており、効率的かつ正確に構造化テキストを解析することができるからだ。 JSONしたがって、自然言語の曖昧さによる曖昧さを最小限に抑えることができる。以前は ChatGPT 4o ベン図の探索を行う中でJSON キュー・ワードも同様に、画像生成の制御性を著しく向上させることが示されている。

AIにJSONプロンプトを書かせる方法

(躊躇なく JSON フォーマットは強力だが、手作業でこのような膨大な量の文章を書くのは、クリエイティブな人たちにとって大変なことだ。 JSON 文書化に伴う作業量や非効率性は、AIを活用して効率化を図るという本来の趣旨にそぐわない。

では、AIにその仕事をさせることはできるのだろうか？答えはイエスだ。私たちは「システム・キュー」を構築し、大きなモデルに自動的に標準化された JSON 構造化されたキューワード。

前述の方法によって JSON 例を分析し、一般的なシステムプロンプトのワードテンプレートをリバースエンジニアリングすることができる。

以下は、完成したビルドのシステムプロンプトの言葉である。 ChatGPT、Gemini または他の大型モデルに使用されている。

# 你是一个专业的AI视频提示词生成专家。
## 任务：
当用户输入一个简短提示（如“赛博朋克街头的一位女子”），你需要：
1. 理解并补全用户未提及的关键信息（包括镜头、主体、场景、动作、摄影、音频、色彩氛围等）。
2. 基于用户提示的意图推测并丰富内容，确保输出能直接用于AI文生视频工具。
3. 输出结果必须是符合如下JSON架构的提示词。
{
"shot": {
"composition": "镜头构图/画幅比例/拍摄方式",
"camera_motion": "相机运动",
"frame_rate": "帧率",
"film_grain": "胶片颗粒感"
},
"subject": {
"description": "主体形象描述",
"wardrobe": "服装与外观"
},
"scene": {
"location": "地点",
"time_of_day": "时间",
"environment": "环境细节"
},
"visual_details": {
"action": "主体动作",
"props": "道具"
},
"cinematography": {
"lighting": "光线风格",
"tone": "整体情绪与基调"
},
"audio": {
"ambient": "环境音",
"dialogue": {
"character": "说话角色",
"line": "台词内容",
"subtitles": "是否显示字幕（true/false）"
},
"effects": "音效"
},
"color_palette": "整体色彩风格"
}
## 工作要求：
- 即使用户输入很简单，你也要合理发挥想象，生成丰富的细节。
- 避免输出JSON以外的任何解释或文字。
- 保证JSON语法正确，字段与示例完全一致（不要新增或减少字段）。
- 对“dialogue”部分，如果用户没有指定，可留空白台词或让主体简单说一句符合场景的台词。
- 对“audio”中的“subtitles”，默认输出 false，除非用户明确要求加字幕。
## 使用方法：
只需将用户的简短提示输入给我。
## 输出：
输出英文版、中文版两个版本。

自分だけのプロンプト・ワード・ジェネレーターを作るための実践ガイド

上記のシステムプロンプトの言葉を GPTs(適用対象 ChatGPTまたは Gems(適用対象 Gemini)、いつでも簡単に電話できる。

以 ChatGPT 例として GPTs にチェックを入れることをお勧めします。 Canvas 関数を追加し、コマンドに「キャンバスに出力する」という要件を追加する。Canvas を直接適用することができる。 JSON コードは修正されており、微調整は非常に簡単だ。

一度設定すれば、使い方はとても簡単だ。例えば、"小さな男の子がバスケットボールをしている "という簡単なアイデアを入力します。

GPTs 構造化された詳細な英中対訳が即座に作成される。 JSON キューワード。ユーザーは、ターゲットのAIビデオプラットフォームがサポートする言語に基づいて、それらのいずれかを選択することができます。詳細を変更する必要がある場合は、キュー・ワードが直接 Canvas キャンバスで編集すればいい。

修正完了後、最終的に JSON コードをコピーして Veo 3 などのAIビデオツールを用いて、期待に高いレベルで適合したビデオを生成する。このアプローチにより、キューワードの完全性とアウトテイクの精度が大幅に向上します。

直接体験したい場合は、作成されたGPTにアクセスしてください：https://chatgpt.com/g/g-68677841368081919478ba33ad7c4056-aishi-pin-ti-shi-ci-sheng-cheng-zhuan-jia-json

ケーススタディ：キーワードから映画予告編まで

この方法の有効性をテストするために、映画的なセンスクリップを生成する実用的な例をここで提供する。

ユーザーの入力： 「夜の街を疾走するフェラーリ。

AIが生成したJSONキューワード：

{
"shot":{
"composition":"First shot: wide shot of Ferrari speeding down the street; second shot: driver’s frontal close-up; third shot: close-up of car window details, 2.35:1 cinematic ratio",
"camera_motion":"First: stable pan, second: slight push-in, third: static shot",
"frame_rate":"24fps, total duration 8 seconds",
"film_grain":"Slight film grain"
},
"subject":{
"description":"A shiny red Ferrari sports car; the driver is a stern-faced man wearing sunglasses",
"wardrobe":"Driver in a black suit with black sunglasses"
},
"scene":{
"location":"Modern city street",
"time_of_day":"Night",
"environment":"Neon signs, tall buildings reflecting headlights, wet pavement"
},
"visual_details":{
"action":"Ferrari speeds by, driver stares ahead, neon lights reflecting on the car window",
"props":"Ferrari sports car"
},
"cinematography":{
"lighting":"Strong contrasts between neon lights and streetlights",
"tone":"Tense, mysterious, urban night mood"
},
"audio":{
"ambient":"Engine roar, tire screeches, distant city noise",
"dialogue":{
"character":"Driver",
"line":"Tonight, there can only be one winner.",
"subtitles":false
},
"effects":"Powerful engine rev sound effect"
},
"color_palette":"Dominant deep blues and vibrant reds highlighting the cold night and Ferrari’s passion"
}

このようにして、統一されたスタイルと首尾一貫したプロットを持つ複数のビデオクリップを素早く生成することができる。これらのクリップを組み合わせることで、"疑似 "予告編「NeoRun」を編集することも可能で、見ていて非常に面白い。

この場合、制作者は以下のツールを使用した：

キュー・ジェネレーション: ChatGPT 運ぶ JSON 生成システム
オーディオとビデオの生成: Google Veo 3
カバー制作: 一瞬の夢 2.1

この構造化されたワークフローは、ユーザーの役割を、絵をどう表現するか悩む「キューワード職人」から、核となるアイデアを提示し、AIが生成したソリューションをレビューするだけの「クリエイティブ・ディレクター」へと変える。人間の創造性を置き換えるのではなく、「考える」と「実行する」の間のギャップを、シンプルなキーワード入力と数回のクリックに短縮するのだ。

すべての人がクリエイティブになれる時代の到来を予感させ、誰の心の中にもあるいくつかのキーワードの中に、次に心を打つ物語が隠されているのかもしれない。

AIビデオ制作のためのハッキングのヒント：JSON構造化されたキューで画面を正確にコントロールする

なぜJSON形式の方が良いのですか？

AIにJSONプロンプトを書かせる方法

自分だけのプロンプト・ワード・ジェネレーターを作るための実践ガイド

ケーススタディ：キーワードから映画予告編まで

おすすめ

AIツールが見つからない？こちらをお試しください！

人気のAIツール

新着情報

最新のAIツール

AIビデオ制作のためのハッキングのヒント：JSON構造化されたキューで画面を正確にコントロールする

なぜJSON形式の方が良いのですか？

AIにJSONプロンプトを書かせる方法

自分だけのプロンプト・ワード・ジェネレーターを作るための実践ガイド

ケーススタディ：キーワードから映画予告編まで

おすすめ

AIツールが見つからない？こちらをお試しください！

人気のAIツール

新着情報

最新のAIツール

クイック照会ステーションAIツール