Atualmente, a tecnologia de geração de vídeo com IA está se desenvolvendo rapidamente. Tomando Google Veo 3
Ferramentas como a Conch AI e modelos como o Koring foram além do estágio difuso inicial de geração para produzir videoclipes com textura quase cinematográfica.
No entanto, os usuários comuns ainda enfrentam dois problemas principais na aplicação prática: primeiro, os usuários não profissionais geralmente têm apenas uma ideia vaga ou algumas palavras-chave dispersas, e é difícil escrever de forma independente dicas profissionais que atendam às especificações da produção de filmes e televisão; segundo, há um desvio entre a ambiguidade da linguagem natural e a "compreensão" da IA, o que leva à geração de uma nova dica que muitas vezes se desvia das expectativas. Em segundo lugar, há uma discrepância entre a imprecisão da linguagem natural e a "compreensão" da IA, o que leva à geração de dicas que muitas vezes se desviam dos resultados esperados e precisam ser modificadas e depuradas repetidamente.
Recentemente, um blogueiro da plataforma de mídia social X compartilhou uma solução inovadora: usar o JSON
formato Google Veo 3
Escreva palavras-chave. Essa abordagem oferece uma maneira completamente nova de pensar sobre a solução dos pontos problemáticos mencionados acima.
Veja o que o blogueiro compartilhou JSON
As palavras-chave, tanto a versão original em inglês quanto a versão traduzida em chinês, estão incluídas:
Cue word in English:
{
"shot":{
"composition":"Medium shot, vertical format, handheld camera",
"camera_motion":"slight natural shake",
"frame_rate":"30fps",
"film_grain":"none"
},
"subject":{
"description":"A towering, snow-white Yeti with shaggy fur and expressive blue eyes",
"wardrobe":"slightly oversized white T-shirt with the name 'Emily' in bold, blood-red letters across the chest"
},
"scene":{
"location":"lush forest clearing",
"time_of_day":"daytime",
"environment":"sunlight filtering through the canopy, creating dappled light patterns on the forest floor"
},
"visual_details":{
"action":"Yeti holds a smartphone on a selfie stick, speaking excitedly to the camera before letting out a dramatic scream",
"props":"smartphone mounted on a selfie stick"
},
"cinematography":{
"lighting":"natural sunlight with soft shadows",
"tone":"lighthearted and humorous"
},
"audio":{
"ambient":"rustling leaves, distant bird calls",
"dialogue":{
"character":"Yeti",
"line":"Veo3 Fast is now available in the Gemini app—three videos per day! People are going to prompt me like crazy!",
"subtitles":false
},
"effects":"sudden loud scream, flapping wings of startled birds"
},
"color_palette":"naturalistic with earthy greens and browns; bold red lettering on shirt provides contrast"
}
Versão chinesa da palavra-chave:
{
"镜头":{
"构图":"中景,竖屏格式,手持相机",
"相机运动":"轻微自然摇晃",
"帧率":"30fps",
"胶片颗粒":"无"
},
"主体":{
"描述":"一只高大的雪白雪人,毛发蓬松,眼睛充满表现力,呈蓝色",
"服装":"略微过大的白色T恤,胸前用粗体血红色字母写着‘Emily’"
},
"场景":{
"位置":"郁郁葱葱的森林空地",
"时间":"白天",
"环境":"阳光透过树冠洒下,形成斑驳的光影模式在森林地面"
},
"视觉细节":{
"动作":"雪人拿着自拍杆上的智能手机,兴奋地对着镜头讲话,随后发出一声戏剧性的尖叫",
"道具":"安装在自拍杆上的智能手机"
},
"摄影":{
"照明":"自然阳光,柔和的阴影",
"基调":"轻松幽默"
},
"音频":{
"环境音":"沙沙的树叶声,远处的鸟鸣声",
"对白":{
"角色":"雪人",
"台词":"Veo3 Fast现在可以在Gemini应用中使用——每天三条视频!人们会疯狂地给我发提示!",
"字幕":false
},
"音效":"突然的大声尖叫,惊飞的鸟翼拍打声"
},
"色彩调色板":"自然主义风格,带有泥土般的绿色和棕色;T恤上的鲜艳红色字母提供了对比"
}
Usando as palavras-chave em inglês acima, oGoogle Veo 3
Foi gerado um vídeo curto de alta qualidade no estilo ASMR.
Por que o formato JSON é uma instrução melhor?
JSON
(JavaScript Object Notation) é um formato leve de troca de dados que organiza os dados por pares de valores-chave, como "镜头": { ... }
Oferece suporte ao aninhamento de dados. Ele suporta aninhamento de dados e tem uma estrutura clara que é fácil de ser lida por humanos e analisada por máquinas.
(col.) reprovar (um aluno) JSON
As vantagens são óbvias quando usadas para palavras-chave de IA. Ele divide uma ideia vaga em uma série de parâmetros específicos e estruturados que abrangem várias dimensões, como câmera, tema, cena, iluminação, efeitos sonoros e assim por diante. Esse método não é apenas abrangente, mas as instruções também são muito claras.
Os modelos de linguagem grande (LLMs) têm uma preferência natural por esses dados estruturados. Isso ocorre porque os dados de treinamento do LLM contêm grandes quantidades de código e texto estruturado, permitindo que ele analise de forma eficiente e precisa os dados estruturados. JSON
minimizando, assim, a ambiguidade decorrente da ambiguidade da linguagem natural. Anteriormente, em ChatGPT 4o
Ao realizar uma exploração do diagrama de Venn, aJSON
Da mesma forma, foi demonstrado que as palavras-chave melhoram significativamente a capacidade de controle da geração de imagens.
Como fazer com que a IA escreva prompts JSON para você
(go ahead and do it) without hesitating JSON
O formato é poderoso, mas escrever manualmente um documento tão exaustivo para cada criativo JSON
A quantidade de trabalho e as ineficiências associadas à documentação não são consistentes com a intenção original de usar a IA para aumentar a eficiência.
Então, a IA pode ser usada para fazer o trabalho? A resposta é sim. Podemos criar uma "palavra de prompt do sistema" e permitir que o grande modelo gere automaticamente a palavra padronizada JSON
Palavras-chave estruturadas.
Por meio do exposto acima JSON
Os exemplos são analisados e é possível fazer a engenharia reversa de um modelo genérico de palavra de prompt de sistema.
Aqui estão as palavras do prompt do sistema para a compilação concluída, que você pode encontrar diretamente no arquivo ChatGPT
eGemini
ou usado em outros modelos grandes.
# 你是一个专业的AI视频提示词生成专家。
## 任务:
当用户输入一个简短提示(如“赛博朋克街头的一位女子”),你需要:
1. 理解并补全用户未提及的关键信息(包括镜头、主体、场景、动作、摄影、音频、色彩氛围等)。
2. 基于用户提示的意图推测并丰富内容,确保输出能直接用于AI文生视频工具。
3. 输出结果必须是符合如下JSON架构的提示词。
{
"shot": {
"composition": "镜头构图/画幅比例/拍摄方式",
"camera_motion": "相机运动",
"frame_rate": "帧率",
"film_grain": "胶片颗粒感"
},
"subject": {
"description": "主体形象描述",
"wardrobe": "服装与外观"
},
"scene": {
"location": "地点",
"time_of_day": "时间",
"environment": "环境细节"
},
"visual_details": {
"action": "主体动作",
"props": "道具"
},
"cinematography": {
"lighting": "光线风格",
"tone": "整体情绪与基调"
},
"audio": {
"ambient": "环境音",
"dialogue": {
"character": "说话角色",
"line": "台词内容",
"subtitles": "是否显示字幕(true/false)"
},
"effects": "音效"
},
"color_palette": "整体色彩风格"
}
## 工作要求:
- 即使用户输入很简单,你也要合理发挥想象,生成丰富的细节。
- 避免输出JSON以外的任何解释或文字。
- 保证JSON语法正确,字段与示例完全一致(不要新增或减少字段)。
- 对“dialogue”部分,如果用户没有指定,可留空白台词或让主体简单说一句符合场景的台词。
- 对“audio”中的“subtitles”,默认输出 false,除非用户明确要求加字幕。
## 使用方法:
只需将用户的简短提示输入给我。
## 输出:
输出英文版、中文版两个版本。
Um guia prático para criar seu próprio gerador de palavras para prompts
Você pode encapsular as palavras do prompt do sistema acima em um GPTs
(Aplicável a ChatGPT
) ou Gems
(Aplicável a Gemini
), fácil de ligar a qualquer momento.
para ChatGPT
Por exemplo, ao criar o GPTs
Recomenda-se marcar a opção Canvas
e adicione o requisito "output to Canvas" ao comando.Canvas
O recurso permite que o usuário aplique diretamente o JSON
O código é modificado e é muito fácil de ser ajustado.
Depois de configurado, ele é muito simples de usar. Por exemplo, insira uma ideia simples: "Um menino está jogando basquete".
GPTs
Uma versão bilíngue inglês-chinês bem estruturada e detalhada é gerada imediatamente. JSON
Palavra-chave. Os usuários podem escolher uma delas com base nos idiomas suportados pela plataforma de vídeo de IA de destino. Se algum detalhe precisar ser alterado, as palavras-chave serão exibidas diretamente no Canvas
Basta editar na tela.
Depois de concluir as modificações, a versão final JSON
Copie o código para Veo 3
e outras ferramentas de vídeo de IA para gerar vídeos altamente compatíveis com as expectativas. Essa abordagem melhora muito a integridade das palavras-chave e a precisão do resultado.
Se quiser experimentar diretamente, você pode acessar os GPTs criados:https://chatgpt.com/g/g-68677841368081919478ba33ad7c4056-aishi-pin-ti-shi-ci-sheng-cheng-zhuan-jia-json
Estudo de caso: de palavras-chave a trailers de filmes
Para testar a eficácia do método, um exemplo prático de geração de um clipe de sentido cinematográfico é fornecido aqui.
Entrada do usuário: "Uma Ferrari acelera pelas ruas da cidade à noite."
Palavras de sugestão JSON geradas por IA:
{
"shot":{
"composition":"First shot: wide shot of Ferrari speeding down the street; second shot: driver’s frontal close-up; third shot: close-up of car window details, 2.35:1 cinematic ratio",
"camera_motion":"First: stable pan, second: slight push-in, third: static shot",
"frame_rate":"24fps, total duration 8 seconds",
"film_grain":"Slight film grain"
},
"subject":{
"description":"A shiny red Ferrari sports car; the driver is a stern-faced man wearing sunglasses",
"wardrobe":"Driver in a black suit with black sunglasses"
},
"scene":{
"location":"Modern city street",
"time_of_day":"Night",
"environment":"Neon signs, tall buildings reflecting headlights, wet pavement"
},
"visual_details":{
"action":"Ferrari speeds by, driver stares ahead, neon lights reflecting on the car window",
"props":"Ferrari sports car"
},
"cinematography":{
"lighting":"Strong contrasts between neon lights and streetlights",
"tone":"Tense, mysterious, urban night mood"
},
"audio":{
"ambient":"Engine roar, tire screeches, distant city noise",
"dialogue":{
"character":"Driver",
"line":"Tonight, there can only be one winner.",
"subtitles":false
},
"effects":"Powerful engine rev sound effect"
},
"color_palette":"Dominant deep blues and vibrant reds highlighting the cold night and Ferrari’s passion"
}
Dessa forma, é possível gerar rapidamente vários clipes de vídeo com um estilo unificado e um enredo coerente. Ao combinar esses clipes, é possível até mesmo editar um "pseudo" trailer "NeoRun", que é bastante interessante de assistir.
Nesse caso, o criador usou as seguintes ferramentas:
- Geração de tacos:
ChatGPT
transporte (pessoas, uma carga útil etc.)JSON
sistema de geração - Geração de áudio e vídeo:
Google Veo 3
- Produção de capas: um sonho instantâneo 2.1
Esse fluxo de trabalho estruturado transforma a função do usuário de um "artesão de palavras-chave" que luta para descrever uma imagem em um "diretor criativo" que simplesmente apresenta a ideia central e analisa a solução gerada pela IA. Ele não substitui a criatividade humana, mas reduz a distância entre "pensar" e "fazer" para uma simples inserção de palavra-chave e alguns cliques.
Isso pode ser o prenúncio de uma época em que todas as pessoas podem ser criativas, e a próxima história que tocará o coração pode estar escondida nessas poucas palavras-chave na mente de qualquer pessoa.