DAILY LESSON / 2026-04-19

AI 自动剪视频的 Skill 来了

前两天，Github 上出了一个开源项目叫 video-use，这是一个帮你自动剪辑视频的 Skill，只要用自然语言就能做视频剪辑。

AISkillAI智能体AI编程AI视频AI工作流AI动态

前两天，Github 上出了一个开源项目叫 video-use，这是一个帮你自动剪辑视频的 Skill，只要用自然语言就能做视频剪辑。

用法很简单，先把录好的原始素材放到一个文件夹里，然后打开任何一个智能体平台，不管海外的 Claude Code，OpenCode 还是国产的 Trae 或者 WorkBuddy 都可以，直接把 Github 网址告诉 AI，跟 AI 说「帮我把这个 Skill 装上去，然后用 Skill 把文件夹里的素材剪成一个发布视频」就行了。

AI 会先过一遍所有素材，自动识别每段录制里每个词说了什么、在什么时间点、谁在说话、哪里有笑声和停顿。然后它不会直接剪辑，而是会给你输出一个完整的剪辑方案。你确认方案之后，它会自动完成所有的剪辑。自动去掉废话和停顿，自动调色，自动加字幕，甚至可以在关键节点自己叠加动画图表。最后会输出一个完整的 mp4 文件。

其实它最棒的点在于，因为它是基于 Skill 的，所以整个过程中你随时可以用自然语言反馈，比如「开头太拖了」「这段换另一段录制」「字幕字号大一点」，它就能直接帮你改。

而且它在交付给你之前会先自检。它会在剪辑的每一个切点的前后各看 1.5 秒，检查有没有画面跳变、音频不连贯、字幕被遮挡这些问题。如果有问题就自动修，最多会修三轮，自检通过了才会交付给你。说真的，这个习惯比很多剪辑师都好。

虽然之前也有一些帮忙剪视频的 Skill，但是这个项目是目前我看到的做的最完善的一个。

那它背后的技术原理是什么？其实最核心的问题就是怎么让 AI 理解视频内容。一个视频哪怕只有一分钟，如果你每秒 30 帧就是 1800 帧。如果把每一帧都给 AI 看，一分钟视频就要烧掉几百万的 Token。这个成本谁都扛不住。

video-use 的做法非常聪明，它并不会上来就看视频，而是先做音频的转录。它会用 Scribe 做逐词级别的语音识别，注意不是逐句，是逐词，每个词都有精确到毫秒的时间戳，还能标注谁在说话、哪里有笑声，掌声，叹气。然后把所有素材的转录打包成一个文本文件，大概长这样：

## C0103  (duration: 43.0s, 8 phrases)
  [002.52-005.36] S0 这个产品百分之九十的操作其实是浪费的。
  [006.08-006.74] S0 我们解决了这个问题。

整个项目所有素材打包完，通常也就几 KB 或者十几 KB。这个压缩比非常恐怖。

AI 自动剪视频的 Skill 来了

视频号

抖音

小红书

公众号

Bilibili

X (Twitter)

相关推荐

一个插件，让 AI 智能体住在你的网页

口播视频的半自动剪辑：不切视频，生成时间线

2 万星的 Frontend Slides：AI 做 PPT 这件事，设计比内容更难

如何写好 Skill：来自腾讯的实战经验