整体思路:使用ffmpeg提取视频的音频,使用腾讯的音频识别文字接口(地址:API Explorer - 云 API - 控制台,所以里面也有包含腾讯接口v3签名的用法)(当然这里直接提取视频的字幕也是可以的,大厂都提供这些接口),提取返回的数据生成srt字幕,生成的字幕由人工智能洗一遍(这里我使用的是开源的openrouter里的大模型),生成合适的字幕,然后由ffmpeg割取片段,最后再合并视频片段就好了,整体逻辑很简单。如果易语言能对接大模型就好了(我现在是没找到),如果可以的或还有一种思路,腾讯的接口替换掉,使用国外的wispper模型,或者飞浆的paddlespeech都是可以的,这样就可以以本地为基础使用了
视频字幕懒得写了,感兴趣的可以研究一下ffmpeg