AI 自动剪视频的 Skill 来了
前两天,Github 上出了一个开源项目叫 video-use,这是一个帮你自动剪辑视频的 Skill,只要用自然语言就能做视频剪辑。
前两天,Github 上出了一个开源项目叫 video-use,这是一个帮你自动剪辑视频的 Skill,只要用自然语言就能做视频剪辑。
用法很简单,先把录好的原始素材放到一个文件夹里,然后打开任何一个智能体平台,不管海外的 Claude Code,OpenCode 还是国产的 Trae 或者 WorkBuddy 都可以,直接把 Github 网址告诉 AI,跟 AI 说「帮我把这个 Skill 装上去,然后用 Skill 把文件夹里的素材剪成一个发布视频」就行了。
AI 会先过一遍所有素材,自动识别每段录制里每个词说了什么、在什么时间点、谁在说话、哪里有笑声和停顿。然后它不会直接剪辑,而是会给你输出一个完整的剪辑方案。你确认方案之后,它会自动完成所有的剪辑。自动去掉废话和停顿,自动调色,自动加字幕,甚至可以在关键节点自己叠加动画图表。最后会输出一个完整的 mp4 文件。
其实它最棒的点在于,因为它是基于 Skill 的,所以整个过程中你随时可以用自然语言反馈,比如「开头太拖了」「这段换另一段录制」「字幕字号大一点」,它就能直接帮你改。
而且它在交付给你之前会先自检。它会在剪辑的每一个切点的前后各看 1.5 秒,检查有没有画面跳变、音频不连贯、字幕被遮挡这些问题。如果有问题就自动修,最多会修三轮,自检通过了才会交付给你。说真的,这个习惯比很多剪辑师都好。
虽然之前也有一些帮忙剪视频的 Skill,但是这个项目是目前我看到的做的最完善的一个。
那它背后的技术原理是什么?其实最核心的问题就是怎么让 AI 理解视频内容。一个视频哪怕只有一分钟,如果你每秒 30 帧就是 1800 帧。如果把每一帧都给 AI 看,一分钟视频就要烧掉 几百万的 Token。这个成本谁都扛不住。
video-use 的做法非常聪明,它并不会上来就看视频,而是先做音频的转录。它会用 Scribe 做逐词级别的语音识别,注意不是逐句,是逐词,每个词都有精确到毫秒的时间戳,还能标注谁在说话、哪里有笑声,掌声,叹气。然后把所有素材的转录打包成一个文本文件,大概长这样:
## C0103 (duration: 43.0s, 8 phrases)
[002.52-005.36] S0 这个产品百分之九十的操作其实是浪费的。
[006.08-006.74] S0 我们解决了这个问题。
整个项目所有素材打包完,通常也就几 KB 或者 十几 KB。这个压缩比非常恐怖。