P4-字幕提取器-OCR版-1.0,使用教程及后续改进方向,进步空间很大
P4-字幕提取器-OCR版-1.0,使用教程及后续改进方向,进步空间很大
大家好,今天给大家带来的是字幕提取器的使用教程,以及后面会总结一下该软件目前的不足,以及后续改进方向。
在视频的开头需要提及的是,该软件或者思路如果帮到你,可以三连支持一下。
首先是软件的下载,我们可以直接在github的软件简介中找到下载链接,如果不能访问到github的可以看我简介加群获取,群文件中有多数代码。群文件中没有的话可以在群中艾特一下群主。
如果是源代码的获取的话直接clone一下仓库就可以了。在funs文件夹中是每个步骤的函数实现,对于软件的流程不满意的开发者可以自行拼装出软件。
好了,接下来是字幕提取器的使用教程,我们下载软件压缩包后解压,就会看到一个exe文件,直接双击运行,就会首先来到我们的软件配置界面,这个界面只会在第一次运行的时候出现,因为我们的软件OCR识别是基于微信OCR的,所以说效果肯定是不用担心。我们需要做的就是在第一次运行的时候配置上我们电脑的微信OCR目录与微信安装目录。
两个目录的寻找方法也很简单。微信OCR的目录比较固定,就顺着我的目录一路找下去。复制路径可以直接在路径栏复制。微信的安装目录如果是默认的安装路径的话可以去c盘或者d盘中的program file或者x86文件夹中都找一下。如果是自定义的安装路径也同样按照我这个路径填进去。
好了,配置完两个路径后,我们下一步就是测试这两个路径是否正确。我们选择一张图片,点击测试按钮。测试通过之后就会出现这样的弹窗。提示我们微信OCR路径配置成功,生成了config.txt文件,点击确认后就会自动关闭软件。
再次双击软件打开就是我们的正常的软件使用界面,很显然,上面是我们的选择文件区域,我们可以选择一个视频,点后点击我们的视频抽帧按钮,就会从我们的视频中抽出图片,这里是自动默认的一秒抽一帧,间隔时间太短可能一个字幕画面被抽取多次,间隔时间太慢可能会导致漏掉字幕。
我们可以在输出面板看到抽帧的实时进度,过程中,我们可以打开抽帧图片的目录,选取一张图片,这里我们可以看到这张图片的分辨率是4k。我们可以使用ps测量出字幕的高度区间,当然,嫌麻烦的话可以直接根据图片的像素估计一下,大致区间就可以,不用很精准。当然,也可以选择使用我们的手写字体生成器1.1.1版,支持4k图像的坐标信息标注,使用的话就是双击打开软件,选择图片,放大拖拽到字幕区域,右键点击后拖拽,查看两个高度值。
分别填入我们软件的高度区间,然后点击后续操作按钮即可。稍等片刻就会将视频文案输出至output文件夹下。
好了,软件的详细操作流程演示完毕。
接下来说说我对于这款软件的看法。很明显,不能批量化,一键完成。但这是业务场景复杂导致的的必然结果。
后续的改进方向是将业务场景缩小至横板视频,直接截取视频底部区域,免去保存完整图片的io耗时很测量字母区间的耗时繁琐操作,自然也就实现了真正的批量化与一键完成。
该思路或者软件如果帮到您,希望您可以大方给出一个三连。您的三连就是对我的最大支持。