DAILY LESSON / 2026-06-03

口播视频的半自动剪辑：不切视频，生成时间线

比 AI 直接出片更精准的做法：用 Whisper 做本地转录，脚本对齐找重读，保留呼吸感，输出 FCPXML 给达芬奇。核心思路是不切视频，只切时间线。

AI技能口播AI视频AI工作流AI编程一人公司自媒体

最近我在研究一种新的半自动剪辑方案，思路跟市面上的 AI 剪辑完全不一样。不直接切视频，而是生成一份「剪辑决策时间线」给达芬奇或者 Final Cut Pro 导入，自己再微调。

为什么绕这么一圈？因为 AI 做不到百分之百正确，但你不需要它百分之百正确，你只需要它把百分之九十的脏活干了，剩下百分之十你自己动手。这才是真正能用的方案。

它的核心原理分四步。

第一步，先把视频转成文字时间轴

先让 AI 用本地的 Whisper 或者 FunASR 这样的本地 AI 模型做中文转录。一次投入（装好模型）之后随便用，不花钱、不限量、不用担心隐私。现在本地模型的中文识别精度已经相当好了。

输出的不只是文字，而是每句话、每个词在原视频里的精确开始和结束时间。比如「今天我们来聊聊 AI 剪辑」这个句子，你知道它是从第 153 秒第 440 毫秒开始的、到第 156 秒第 120 毫秒结束的。这个精度，是后面一切操作的基础。

第二步，判断「这段是不是说错了」

口播通常是有脚本的，而且大多数人基本是照着读的。拿到 AI 的音频转录识别结果之后，让 AI 跟你的脚本做逐句匹配。

这里的规则是：比如它发现当前读到了脚本第 4 句，下一段读到了第 5 句，再下一段又跳回第 4 句，这说明什么？说明第五句读错了或者不满意，重新录了一遍。这种情况就可以非常精准的知道哪部分要裁剪掉。

第三步，删停顿，但保留气口

相关推荐