DAILY LESSON / 2026-06-03

口播视频的半自动剪辑:不切视频,生成时间线

比 AI 直接出片更精准的做法:用 Whisper 做本地转录,脚本对齐找重读,保留呼吸感,输出 FCPXML 给达芬奇。核心思路是不切视频,只切时间线。

AI技能口播AI视频AI工作流AI编程一人公司自媒体

作者:C 哥·C哥介绍 →

最近我在研究一种新的半自动剪辑方案,思路跟市面上的 AI 剪辑完全不一样。不直接切视频,而是生成一份「剪辑决策时间线」给达芬奇或者 Final Cut Pro 导入,自己再微调。

为什么绕这么一圈?因为 AI 做不到百分之百正确,但你不需要它百分之百正确,你只需要它把百分之九十的脏活干了,剩下百分之十你自己动手。这才是真正能用的方案。

它的核心原理分四步。

第一步,先把视频转成文字时间轴

先让 AI 用本地的 Whisper 或者 FunASR 这样的本地 AI 模型做中文转录。一次投入(装好模型)之后随便用,不花钱、不限量、不用担心隐私。现在本地模型的中文识别精度已经相当好了。

输出的不只是文字,而是每句话、每个词在原视频里的精确开始和结束时间。比如「今天我们来聊聊 AI 剪辑」这个句子,你知道它是从第 153 秒第 440 毫秒开始的、到第 156 秒第 120 毫秒结束的。这个精度,是后面一切操作的基础。

第二步,判断「这段是不是说错了」

口播通常是有脚本的,而且大多数人基本是照着读的。拿到 AI 的音频转录识别结果之后,让 AI 跟你的脚本做逐句匹配。

这里的规则是:比如它发现当前读到了脚本第 4 句,下一段读到了第 5 句,再下一段又跳回第 4 句,这说明什么?说明第五句读错了或者不满意,重新录了一遍。这种情况就可以非常精准的知道哪部分要裁剪掉。

第三步,删停顿,但保留气口