Grok Imagine的视频功能上线后,很多人直接打字就发,出来的东西像PPT动画。其实不是模型不行,是xAI把控制权藏在了提示词里。
核心就三处:镜头运动、风格锚定、时间戳节奏。比如你想要手持感,得写「手持iPhone拍摄,轻微晃动」;想要电影感,得加「35mm胶片,浅景深」——模型不会自动脑补这些,你不喂它就不吃。
最狠的是时间戳。官方示例里一段15秒的视频,提示词精确到「0:00-0:03 特写,0:04-0:07 拉远揭示全景」。「时间戳是导演的语言,用好了就是分镜脚本。」这是xAI工程师在Discord里说的原话。
风格锚定更细。同样是「赛博朋克」,加「1995年《攻壳机动队》风格」和加「《银翼杀手2049》风格」,出来的光影完全是两回事。模型吃的是具体参考,不是形容词。
目前用户反馈两极:有人用这套方法论做出了能用的广告片,也有人发现人物一致性还是翻车,同一张脸在第三秒突然换了个 ethnicity。xAI没承诺修复时间表,只更新了文档说「建议用特写减少全身镜头」。
热门跟贴