跳到主要内容

AI 生成视频方案教程

· 阅读需 19 分钟
ahKevinXy
作者

AI 生成视频不是简单地“输入一句话,然后等奇迹发生”。更稳定的做法是把它当成一条小型内容流水线:先确定目标,再写脚本和分镜,再用图片或文字生成镜头,最后剪辑、配音、加字幕、验收发布。

本文给出一套适合个人创作者、小团队和开发者的 AI 视频生成方案,覆盖无代码、半自动和 API 自动化三种路线,并提供可直接改写的案例。

更新日期:2026-07-04。

一、先明确目标:你要生成哪一类视频

开始之前先回答 5 个问题:

  1. 视频发在哪里:抖音、快手、小红书、B 站、YouTube Shorts、TikTok、官网还是广告落地页?
  2. 视频比例是多少:短视频常用 9:16,横版内容常用 16:9,社媒卡片常用 1:1
  3. 视频时长是多少:广告 6-15 秒,知识短视频 30-90 秒,产品演示 15-45 秒。
  4. 视频是否需要真人:真人口播、数字人、产品展示、动画、写实镜头的流程不同。
  5. 是否需要批量生产:偶尔做一条用网页工具即可,批量生产建议使用 API 或自动化脚本。

一句话原则:能用“图生视频”就优先用图生视频,因为人物、产品、品牌视觉更容易保持一致;只有在探索创意阶段才优先用“文生视频”。

二、三种 AI 视频生成方案

方案适合人群核心工具形态优点风险
零代码方案个人创作者、运营、市场网页工具、剪辑软件、数字人平台上手最快,适合快速试错批量化和风格统一较弱
专业制作方案品牌、短视频团队、独立制片图片生成、图生视频、剪辑、调色、配音质量更稳定,适合商业内容流程更长,需要审美和剪辑能力
API 自动化方案开发者、增长团队、内容工厂视频生成 API、任务队列、素材库、审核系统可批量、可集成、可追踪成本需要工程能力和内容风控

推荐路线:

  1. 第一次做:零代码方案,先跑通完整流程。
  2. 想做得稳定:专业制作方案,用“脚本 + 分镜 + 关键帧 + 图生视频”控制质量。
  3. 要规模化:API 自动化方案,把脚本、提示词、生成、下载、剪辑、审核全部串起来。

三、完整工作流

1. 写清楚视频 brief

brief 是生成视频前的需求说明,越清楚,后面返工越少。

模板:

视频目标:让用户理解/购买/点击/关注什么?
目标受众:谁会看?他们最关心什么?
平台比例:9:16 / 16:9 / 1:1
视频时长:15 秒 / 30 秒 / 60 秒
视觉风格:写实 / 电影感 / 赛博朋克 / 手绘 / 3D / 极简
是否需要人物:需要 / 不需要
是否需要产品一致性:需要 / 不需要
是否需要旁白和字幕:需要 / 不需要
禁用元素:不要 logo 乱入、不要文字变形、不要夸张肢体、不要虚假功效

2. 写脚本

短视频脚本可以用“三段式”:

  1. 开头 3 秒:提出冲突或利益点。
  2. 中间 10-40 秒:展示过程、证据或变化。
  3. 结尾 3-5 秒:给出行动提示。

例子:

标题:用 AI 做一条产品视频

开头:以前做产品广告,要拍摄、布光、剪辑,现在一张产品图就能开始。
中间:先生成 3 个关键镜头:产品特写、使用场景、结果展示。
结尾:最后加上字幕、配音和品牌色,一条 15 秒广告就完成了。

3. 拆分镜

AI 视频更适合“短镜头多次生成”,不要试图一次生成 60 秒完整大片。建议每个镜头 4-8 秒,最后在剪辑软件里拼接。

分镜模板:

镜头时长画面镜头运动旁白/字幕生成方式
15 秒产品放在桌面,阳光从窗边照入缓慢推进“一张图,也能做广告”图生视频
25 秒用户拿起产品使用手持轻微移动“先确定场景和动作”图生视频
35 秒成片在手机屏幕中播放环绕镜头“再剪辑、配音、发布”文生视频

4. 生成关键帧

关键帧可以来自:

  • 真实产品照片;
  • AI 图片生成;
  • 手绘草图;
  • 设计稿;
  • 视频截图。

如果你要做人物或产品广告,建议先生成或准备 1-3 张稳定关键帧,再用图生视频扩展动作。这样能显著减少“人物变脸、产品变形、品牌错乱”的问题。

5. 写视频提示词

视频提示词要描述 6 件事:

  1. 主体:谁或什么东西。
  2. 动作:正在做什么。
  3. 场景:在哪里。
  4. 镜头:推近、拉远、环绕、航拍、手持、定镜。
  5. 光线和风格:自然光、霓虹、电影感、纪录片、商业广告。
  6. 约束:不要文字、不要 logo 乱入、不要变形、不要额外人物。

通用英文模板:

A {duration}-second {style} video of {subject} {action} in {scene}.
Camera: {camera movement}, {shot type}, {lens or perspective}.
Lighting: {lighting}.
Mood: {mood}.
Details: {important visual details}.
Constraints: no extra text, no watermark, no distorted hands, no duplicated objects, keep the subject consistent.
Aspect ratio: {aspect ratio}.

中文说明版:

生成一个 {时长} 秒的视频:主体是 {主体},正在 {动作},场景是 {地点/环境}。
镜头使用 {镜头运动},画面风格是 {写实/电影感/广告感/动画}。
光线是 {自然光/暖光/霓虹/棚拍},氛围是 {高级/轻松/科技/温暖}。
要求:主体保持一致,不要额外文字,不要水印,不要畸形手部,不要多出物体。
画幅:{9:16/16:9/1:1}。

6. 生成多版,挑选最稳定的一版

同一个镜头至少生成 3-5 次。选择标准不是“哪一版最酷”,而是:

  • 主体是否稳定;
  • 动作是否自然;
  • 镜头是否符合脚本;
  • 画面是否可剪辑;
  • 是否有明显穿帮;
  • 是否有不该出现的文字或 logo;
  • 是否能和下一镜头衔接。

7. 剪辑成片

建议剪辑顺序:

  1. 按分镜导入素材。
  2. 先剪画面节奏。
  3. 加旁白或口播。
  4. 加字幕。
  5. 加背景音乐和音效。
  6. 调色和统一风格。
  7. 导出前做版权、事实和品牌审核。

常用导出规格:

平台推荐比例推荐时长备注
抖音/快手/TikTok/Shorts9:1615-60 秒开头 3 秒很关键
小红书9:16 / 1:115-90 秒封面和字幕要清楚
B 站/YouTube16:91-10 分钟更重视结构和信息密度
官网/广告页16:9 / 1:16-30 秒品牌一致性优先

四、工具选型建议

1. 不写代码:适合快速出片

适用场景:

  • 个人短视频;
  • 产品宣传;
  • 活动预热视频;
  • 简单知识科普;
  • 社媒素材测试。

流程:

脚本 -> 分镜 -> AI 图片/产品图 -> 图生视频 -> 剪辑 -> 配音字幕 -> 发布

建议组合:

  • 文案:ChatGPT、Claude、Gemini 等对话模型。
  • 图片:Midjourney、Stable Diffusion、Flux、即梦等图片工具。
  • 视频:可灵、即梦、Runway、Luma、Pika、Veo 等视频工具。
  • 剪辑:剪映、CapCut、Premiere、DaVinci Resolve。
  • 配音:剪映配音、ElevenLabs、Azure Speech、其他 TTS 工具。

不要把工具当成核心竞争力。真正重要的是脚本、分镜、审美和稳定的生产流程。

2. 半自动:适合团队内容生产

适用场景:

  • 每周固定更新视频;
  • 电商批量生成商品短视频;
  • 矩阵号内容生产;
  • 企业培训和产品说明。

推荐搭建一个素材表:

字段示例
video_idproduct_001
title便携咖啡机 15 秒广告
audience上班族、露营用户
product_imageassets/product_001.png
script15 秒旁白
shot_1_prompt产品特写镜头
shot_2_prompt使用场景镜头
voice女声、温暖、有活力
status待生成/待审核/已发布

这样可以把“创意”变成可管理的生产任务。

3. API 自动化:适合批量生产和产品集成

适用场景:

  • 根据商品库自动生成视频;
  • 根据文章自动生成知识短视频;
  • 给 SaaS 产品增加“生成视频”能力;
  • 做广告素材 A/B 测试。

架构参考:

用户输入/商品库/文章
|
v
脚本生成 -> 分镜生成 -> 提示词生成 -> 视频生成 API
| |
v v
素材库 <------------------------------ 生成任务状态
|
v
自动剪辑 -> 字幕/配音 -> 审核 -> 发布/下载

实现要点:

  • 任务必须异步处理,视频生成通常不是立即返回。
  • 保存每次生成的 prompt、模型、参数和成本,方便复盘。
  • 给失败任务做重试,但要设置最大次数,避免无限消耗费用。
  • 上线前必须加内容审核,包括版权、肖像、品牌、敏感内容和事实准确性。

五、API 示例:用 Luma Ray 2 生成短视频

下面是一个 API 自动化的最小示例。不同平台参数会变化,正式接入时以官方文档为准。

1. 创建生成任务

export LUMA_API_KEY="你的 API Key"

curl -X POST "https://api.lumalabs.ai/dream-machine/v1/generations" \
-H "Authorization: Bearer $LUMA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"prompt": "A 5-second cinematic product video of a matte black portable coffee maker on a wooden table. Morning sunlight enters from a window, steam rises from a cup, slow camera push-in, premium lifestyle advertising style, shallow depth of field, no text, no watermark.",
"model": "ray-2",
"duration": "5s",
"resolution": "720p",
"aspect_ratio": "9:16"
}'

2. 查询任务状态

curl "https://api.lumalabs.ai/dream-machine/v1/generations/{generation_id}" \
-H "Authorization: Bearer $LUMA_API_KEY"

3. 下载视频并进入剪辑

当任务完成后,接口会返回生成结果地址。把视频下载到素材库,再进入剪辑流程:

download video -> rename -> add to project -> add voiceover -> add captions -> export

如果你要批量化,不建议直接把 API 调用写在页面按钮里。更稳的方式是:

  1. 前端提交任务。
  2. 后端写入队列。
  3. Worker 调用视频生成 API。
  4. Worker 轮询或接收回调。
  5. 结果入库。
  6. 前端展示下载链接和预览。

六、API 示例:用 Gemini/Veo 路线做视频生成

Google Gemini API 的视频生成文档已经把视频生成纳入 Gemini API 体系,并提到可根据不同需求选择模型能力。实际项目中可以把它放在“开发者自动化生成”的路线里,尤其适合已经在使用 Gemini 生态的团队。

推荐集成思路:

文本 brief
-> Gemini 生成脚本和分镜
-> Gemini/Veo 生成视频镜头
-> 存储生成结果
-> 自动配音和字幕
-> 人工审核

伪代码结构:

type VideoJob = {
title: string;
aspectRatio: "9:16" | "16:9" | "1:1";
duration: number;
script: string;
shots: Array<{
prompt: string;
referenceImage?: string;
}>;
};

async function generateVideo(job: VideoJob) {
for (const shot of job.shots) {
// 1. 调用视频生成模型创建任务
// 2. 保存任务 id、prompt、参数
// 3. 等待任务完成
// 4. 下载视频片段
}

// 5. 合成字幕、旁白、BGM
// 6. 输出最终视频
}

这里不建议在教程里写死所有模型参数,因为视频模型、参数名和限制变化很快。工程上应该把模型名、时长、比例、分辨率写进配置文件,方便以后替换。

七、提示词模板库

1. 产品广告

A 6-second cinematic product advertisement of {product} on {surface}.
The product is clean, premium, and centered in frame.
Camera: slow push-in from a medium shot to a close-up.
Lighting: soft studio light with subtle highlights.
Mood: modern, elegant, trustworthy.
Details: show texture, reflections, and realistic shadows.
Constraints: no extra text, no watermark, no distorted product shape, keep the product consistent.
Aspect ratio: 9:16.

2. 知识科普

A 5-second educational explainer scene showing {concept} as a clean visual metaphor.
Camera: stable shot with gentle motion.
Style: modern 3D illustration, clean background, high contrast.
Details: simple shapes, clear hierarchy, no crowded elements.
Constraints: no text in the image, no logo, no watermark.
Aspect ratio: 16:9.

3. 城市文旅

A 6-second cinematic travel video of {city/place} at {time of day}.
Camera: smooth walking shot, slight handheld realism.
Lighting: natural golden hour light.
Mood: relaxed, warm, inviting.
Details: people walking naturally, local architecture, street atmosphere.
Constraints: no readable brand logos, no distorted faces, no text, no watermark.
Aspect ratio: 9:16.

4. 数字人口播背景

A clean studio background for a talking-head video.
Scene: modern desk, laptop, soft light, minimal decoration.
Camera: fixed medium shot, stable composition.
Mood: professional, friendly, calm.
Constraints: no people, no text, no logo, no watermark.
Aspect ratio: 16:9.

5. 技术感开场

A 5-second futuristic opening shot for an AI technology video.
Scene: abstract data streams, glass interface, subtle particles, deep perspective.
Camera: slow forward movement through layered digital panels.
Lighting: cool blue and white highlights, high contrast.
Mood: intelligent, precise, premium.
Constraints: no text, no logo, no watermark, no clutter.
Aspect ratio: 16:9.

八、案例一:知识类短视频《AI 生成视频的 3 步流程》

目标

  • 平台:B 站、视频号、YouTube Shorts。
  • 比例:9:16
  • 时长:30 秒。
  • 目标:让观众理解 AI 视频不是一句话生成,而是流程化生产。

脚本

开头:很多人做 AI 视频失败,不是工具不行,而是流程错了。
中间:第一步,先写脚本;第二步,拆成分镜;第三步,每个镜头单独生成,再剪辑成片。
结尾:把 AI 当成视频团队的一部分,而不是许愿机,效果会稳定很多。

分镜

镜头时长画面旁白
15 秒一个人面对空白时间线,很多素材浮现“很多人做 AI 视频失败,不是工具不行。”
28 秒脚本卡片、分镜卡片、视频片段依次排列“而是没有先写脚本、再拆分镜。”
38 秒多个短镜头被拖入剪辑时间线“每个镜头单独生成,再剪辑成片。”
45 秒手机上播放最终短视频“流程对了,质量才稳定。”

关键镜头 prompt

A 5-second vertical video showing a creator sitting in front of a clean editing timeline, empty video tracks slowly filling with colorful AI-generated clips. Camera slowly pushes in, modern studio lighting, focused and creative mood, no readable text, no watermark, no distorted hands. Aspect ratio: 9:16.

九、案例二:电商广告《便携咖啡机 15 秒广告》

目标

  • 平台:抖音、小红书、TikTok。
  • 比例:9:16
  • 时长:15 秒。
  • 目标:展示产品质感和使用场景。

脚本

早晨不一定要排队买咖啡。
把热水倒入便携咖啡机,30 秒就能得到一杯香气浓郁的咖啡。
通勤、露营、办公室,都能随手带上。

分镜

镜头时长画面生成方式
15 秒咖啡机放在木桌上,晨光照入产品图生视频
25 秒手倒入热水,蒸汽升起图生视频
35 秒用户拿起咖啡杯走向窗边文生视频/图生视频

prompt

A 5-second cinematic lifestyle advertisement of a matte black portable coffee maker on a wooden table. Morning sunlight enters from a window, soft steam rises from a coffee cup, slow camera push-in, premium product photography style, shallow depth of field, realistic shadows, no text, no watermark, keep the product shape consistent. Aspect ratio: 9:16.

制作建议

  • 如果有真实产品图,先抠图或拍干净背景图,再图生视频。
  • 每个镜头只做一个动作,不要让 AI 同时完成“倒水、旋转、喝咖啡、切场景”。
  • 商品卖点不要放在 AI 生成画面里,后期用字幕加上,避免文字变形。

十、案例三:城市文旅《周末 City Walk》

目标

  • 平台:小红书、抖音、视频号。
  • 比例:9:16
  • 时长:45 秒。
  • 目标:生成一条城市漫游风格的视频,用于攻略或活动预热。

脚本结构

开头:这个周末,给自己一条慢一点的路线。
中间:从老街的早餐开始,经过书店、咖啡馆和河边日落。
结尾:不用赶路,走到哪里,哪里就是风景。

分镜建议

镜头画面氛围
1清晨街角早餐店温暖、生活感
2树影下的老街慢节奏
3独立书店门口文艺、安静
4咖啡馆窗边放松
5河边日落治愈、收束

prompt

A 6-second vertical cinematic travel video of a quiet city street in the early morning. Warm sunlight shines through trees, people walk slowly, small breakfast shops are opening, realistic documentary style, gentle handheld camera movement, relaxed weekend mood, no readable signs, no text, no watermark, natural faces. Aspect ratio: 9:16.

制作建议

  • 文旅类视频最怕“城市不真实”,建议使用真实照片作为参考图。
  • 不要让 AI 生成可识别商标、车牌、真实路人特写。
  • 后期用真实环境音和轻音乐增强可信度。

十一、案例四:技术品牌短片《AI 自动化工作流》

目标

  • 平台:官网、产品发布页、B 站。
  • 比例:16:9
  • 时长:30 秒。
  • 目标:展示一个 AI 产品如何帮用户自动处理任务。

脚本

每天重复整理资料、生成报告、发送通知,会消耗大量时间。
现在,你可以把这些步骤交给 AI 工作流。
它读取数据、分析内容、生成结果,并把关键结论同步给团队。
让人做判断,让 AI 做重复劳动。

分镜

镜头时长画面
16 秒许多文档、表格、消息窗口堆叠
26 秒数据流进入一个 AI 工作流节点
38 秒节点自动分析、分类、生成报告
46 秒团队成员看到清晰的结论卡片
54 秒产品 logo 或口号由后期添加

prompt

A 6-second futuristic enterprise software video showing documents, spreadsheets, and chat messages flowing into a clean AI workflow interface. Camera moves smoothly through layered glass panels, cool white and blue lighting, premium SaaS product style, precise and minimal, no readable text, no logos, no watermark. Aspect ratio: 16:9.

制作建议

  • AI 生成画面里不要直接生成 UI 文字,后期用真实设计稿覆盖。
  • 如果是官网视频,建议把 AI 生成片段当作背景动态素材,再叠加真实产品截图。
  • 技术品牌不要过度炫光,画面要干净、可信、可读。

十二、质量验收清单

生成视频后,不要急着发布。逐项检查:

检查项标准
主体一致性人物、产品、场景不要突然变化
动作自然度手部、走路、拿取、转身不要明显怪异
镜头连续性前后镜头色调、方向、节奏能衔接
字幕可读性关键文案不要靠 AI 生成,后期添加
商业合规不使用未授权品牌、音乐、人物肖像
事实准确性科普、金融、医疗、法律内容必须人工核查
平台规范遵守平台对 AI 内容、广告、肖像的要求
导出规格比例、分辨率、码率、封面符合发布平台

十三、常见问题

1. 为什么我输入一句话,生成的视频总是不稳定?

因为视频比图片多了时间维度。主体、动作、镜头、光线、场景都要连续变化,一句话很难约束清楚。解决办法是拆分镜,每个镜头只完成一个任务。

2. 文生视频和图生视频怎么选?

探索创意用文生视频,正式制作优先图生视频。只要涉及固定人物、固定商品、固定品牌视觉,就应该准备参考图或关键帧。

3. AI 能直接生成带文字的广告吗?

不建议。多数视频模型生成文字仍然容易变形。更稳的做法是先生成干净画面,再用剪辑软件添加标题、卖点、价格和按钮。

4. 怎么降低成本?

先用低分辨率和短时长测试构图、动作和风格,确认方向后再生成高分辨率版本。不要一开始就批量生成长视频。

5. 怎么让角色保持一致?

使用同一张角色参考图,保持服装、发型、场景和镜头语言一致。一个镜头只做一个动作,不要在一个 prompt 里让角色经历复杂变化。

十四、推荐落地路径

如果你是第一次做 AI 视频,可以按下面的路线走:

  1. 先做一条 15 秒产品或知识短视频。
  2. 只做 3 个镜头,每个镜头 5 秒。
  3. 每个镜头生成 3 个版本。
  4. 选最稳定的版本剪辑。
  5. 加字幕、配音、背景音乐。
  6. 发布后记录数据:完播率、点赞率、转化率。
  7. 根据数据改脚本,而不是只换工具。

如果你要做长期项目,可以升级为:

选题库 -> 脚本模板 -> 分镜模板 -> 提示词模板 -> 生成任务 -> 素材库 -> 剪辑模板 -> 审核 -> 发布 -> 数据复盘

参考资料

总结

AI 生成视频的关键不是“找到一个神奇工具”,而是建立一套可重复的生产流程。

最稳的公式是:

明确目标 + 写好脚本 + 拆成分镜 + 准备关键帧 + 单镜头生成 + 后期剪辑 + 人工审核

掌握这套流程后,无论以后模型怎么变化,你都能快速替换工具,把 AI 变成稳定的视频生产能力。