硬字幕提取工具10.0 - 超好用（”语音提词2.0”发布了！欢迎试用）

hx168 · 发表于 2021-3-3 21:34:09

本帖最后由 hx168 于 2026-4-9 17:36 编辑

https://www.zhihu.com/people/huang-yao-shi-91-46/posts
一、目前为止可行的硬字幕(hardsub)提取方案

这里只说“可行”的方案，那些不成熟的、按时收费的，用过就删的，不在此列。

1. 人工手提，用眼和手来提取时间轴和文字。

优点：准确率高（废话）。

缺点：费时费力，不能常做。

2. esrXP + IdxSubOcr（MODI OCR）

esrXP提取视频中带字幕的图片（从而也就提取了时间轴信息），打包成idx+sub文件，然后导入IdxSubOcr用微软MODI ocr识别文字，生成一个srt字幕文件。

优点：利用传统数字图像处理技术，获得字幕出现和消失的时间点，提取时间轴信息，准确率较高。

缺点：老掉牙的微软MODI ocr识别引擎准确率较低，为了照顾MODI ocr，esrXP需要做较多设置、试验、调整参数的工作，以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说使用门槛高、识别率较低、工作量较大。虽然esrXP已经停更多时，但是苦于没有更好的选择，长期以来字幕爱好者只能将就着用。

3. VideoSubFinder + ABBYY FineReader

VideoSubFinde做类似esrXP的工作（不同的是单独保存每个字幕图片，不打包成idx+sub文件），ABBYY FineReader 15做类似IdxSubOcr的工作，将每个jpg字幕图片ocr识别为一个txt文件，然后回到VideoSubFinder 将所有txt文件合成一个srt文件。

优点：跟esrXP类似，采用了更复杂的数字图像处理技术，提取视频中带字幕的图片和时间轴信息，更好的去重算法，准确率进一步提高。ABBYY FineReader 15除了能ocr中英文，还支持其他语种。

缺点：VideoSubFinder仍然基于传统的数字图像处理技术（灰度膨胀腐蚀轮廓色度亮度相似度），虽然能较好提取普通静态字幕（显示固定颜色固定，大多数视频中硬字幕皆属此类），但是对于一些动态字幕（显示变化颜色不定），难以提取。虽然暴露了很多参数给用户，但是参数繁多难以理解，普通用户只能用默认设置。

ABBYY FineReader 15离线文字ocr引擎，虽然比MODI ocr好得多，但在实际使用效果上，对比近年AI人工智能训练的识别引擎（例如百度OCR通用文字识别引擎），识别准确率还是差了一大截。

4. 硬字幕提取工具10

采用AI文字检测+传统的数字图像处理技术（保留支持VideoSubFinder老用户），提取字幕图片和时间轴信息，然后利用百度讯飞有道OCR通用文字识别云引擎+离线ocr引擎识别出文字，校对后生成srt字幕文件，最后还可选调用第三方工具APP（例如SubtitleEdit）做调轴补漏等工作，从开始到结束，整个字幕提取流程一气呵成，快速准确、识别率高、省时省力。

拙作 “语音提词2.0”发布了！专注于语音识别和字幕翻译，是听不懂外语啃生肉的利器！黃藥師：语音提词1.0(原创) 采用Spleeter（分离人声）+ 断句分割算法，将视频、音频文件中的语音片段单独提取出来，通过讯飞百度ASR语音识别引擎将语音识别为文字，一键生成字幕，同时还集成了单独的字幕翻译工具。

硬字幕提取工具10.0下载链接(下载完先关闭夸克再解压)：

硬字幕提取工具10.0-支持离线OCR版本：

链接：夸克网盘分享提取码：rRJk （解压覆盖以前大包中同名文件）

硬字幕提取工具10.0-不支持离线OCR版本：

链接：夸克网盘分享提取码：skEc （解压覆盖以前大包中同名文件）

2024.11.18更新：

支持百度pid不同长度

硬字幕提取工具10.0-支持离线OCR版本：

链接：夸克网盘分享提取码：CQb3 （先下载这个0914大包6GB，已下载过的不用再下）

链接：夸克网盘分享提取码：bhWv （再下载这个1222更新包，解压覆盖0914大包中同名文件）

硬字幕提取工具10.0-不支持离线OCR版本（200M）：

链接：夸克网盘分享提取码：x4jn

Google Drive：先下载20220914大包，再下载20221222更新包解压覆盖0914大包中同名文件

20220914大包：https://drive.google.com/drive/folders/1v6yQ_LbXIbkiK0zQg4qFvu09nUgNNQ1V?usp=sharing

20221222更新：https://drive.google.com/file/d/1Y-RqH9QYzV1xVNNcB2NFYRTUsmDXq8Mw/view?usp=sharing

2022.12.22更新
1、修复一些bug，优化一些操作
2、调整跳到首页末页快捷键，原Ctrl+左、右，改为Home、End
3、所有窗新增支持Ctrl+↑/↓图片、文本框切换
4、更新了用户使用手册

2022.12.17更新

1、删合窗、校对窗新增当前图片指示，文件列表与图片同步高亮，方便查看图片对应时间轴信息。点击图片，对应列表文件（时间轴）会同步显示，反之点列表文件，对应图片会同步高亮。
2、校对窗图片与文字中央对齐了，适合懒得做精准对齐的用户。

2022.12.03更新
1、校对窗新增‘繁简转换’功能。支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換，如「裏」「裡」、「鼠標」「滑鼠」。
2、新增支持10hour以上视频字幕提取。
3、修复一些bug

2022.09.20更新
1、支持在校对窗OCR后返回删合窗做合并，然后返回校对窗还能保留编辑过的文字和检测框，虽然是少数人的需求，也支持吧。

2022.09.17更新

1、优化了paddle 、tr扫描空图算法，更准确
2、删合窗新增‘（）‘ 快捷键，用于调整X标记的显示位置，以前X标记显示在正中，现可右移最多1/4图宽
3、校对窗新增D、M数目显示，与删合窗同，可实时显示总共X标记与合并标记数目。
4、校对窗新增‘集删’按钮，跟删合窗‘集删’类似，将OCR后自动标记X的图片集中起来一次完成删操作，提高了效率。
5、清除了一些bug，更新了用户使用手册，更新了里面的3个使用案例，老用户可直接看这3个案例，体验新功能

2022.09.14更新
1、0913更新漏打包一个文件，请重新下载最新版

2022.09.13更新
1、大幅优化了智能截图算法，提升了速度，精细调参，提升了分割合并准确度，补偿了字幕起始时间，更精准，
100ms默认截图间隔，彩虹字幕轻松实现100%不漏，字幕起始时间误差+-50ms以内。2小时1080p双行彩虹字幕提取图片只要30分钟可完成，立即OCR。
2、删合窗新增‘集合’按钮，跟‘集删’类似，将合并建议集中起来操作，不用翻页找标记，提高了合并效率。
3、删合窗新增‘ctrl+鼠标左键‘ 快捷键，对应‘单拷’/‘单清’，用于拷贝清除单个合并建议，依葫芦画瓢手工标注更高效
4、删合窗新增‘< >‘ 快捷键，用于快速跳到下一个/上一个有合并建议的页。
5、校对窗新增‘删合’按钮，删合操作页数范围由原来的本页+下一页，改为本页+上一页
6、清除了一些bug，更新了用户使用手册，更新了里面的3个使用案例，老用户可直接看这3个案例，体验新功能

2022.09.11更新

1、增加了校对窗ctrl+F快捷键，对应‘查找替换’

2、清除了一些bug

2022.09.07更新（仅离线版）：

1、调整了智能截图采样间隔机制，以适应恒定和可变帧率CFR、VFR，新版可变帧率允许变化范围不受限制（前版在大范围变化时有低几率漏字幕），实际采样间隔ms数在截图过程中有直观显示。同时更新了用户使用手册。

2022.09.06更新：

1、优化智能截图速度，支持自动合并，对比上一版有10%提速

2、优化智能截图引擎代码，精细调参，提升了分割合并准确度

3、新增集中删除空图功能，将所有自动标记的空图集中到一页中过目，很快就能确定哪些是误标注，而不用像以前翻页过目，大大提升了删的操作便利和效率

4、新增删合窗便捷键：Space（切换删操作、合操作）、D（页删）、M（页合）、C（页清），T（显示前距），边删边合更方便

5、系统设置新增GPU开关，没有N卡或者没装cuda的用户，不要勾选GPU

6、更新了三个智能截图案例，会发现又进一步简化了，完成彩虹字幕提取，也就几下鼠标操作

7、清除了一些bug，更新了用户使用手册

2022.08.31更新：
1、优化智能截图速度，对比上一版有20%提速
2、新增了‘自动合并’设置，智能截图完成返回删合窗，会提示自动合并，简化了删合设置和操作
3、新增tr作为‘扫描空图’默认引擎，比paddle更准确，界面可设置3种扫描引擎
4、重写了三个智能截图案例，会发现更简单了，完成彩虹字幕提取，也就几下鼠标操作

2022.08.16更新：

1、清除一个智能截图算法bug，现在效果好多了

2、简化了删合操作

3、easy上个发布漏打包一些库导致未能加载，现已打包好

4、用户使用手册，新增3种智能截图案例：1）简单固定字幕，2）复杂固定字幕，3）渐变字幕（彩虹字幕）

2022.08.12更新：

1、合并了OCR主窗和校对窗，OCR后直接校对

2、删合窗大改，删合操作更方便

3、集成了VSF，并新增了一个类似VSF的工具-智能截图（须离线版），既能完全替代VSF对静态字幕（固定显示、固定颜色）的提取，又能弥补VSF对动态字幕（动态显示、不定颜色，例如彩虹字幕）无能为力的缺陷。保留VSF是为了一惯性。

9.0 最新版（win10/win11）下载地址：

不支持离线OCR版本（20220620更新）：

链接：夸克网盘分享提取码：cTVi

支持离线OCR版本（体积较大，先下载这个20220408大包-已下过的不用再下，再下载20220620更新替换大包中同名exe）：

20220408大包链接：夸克网盘分享提取码：hJeS

20220620更新链接：夸克网盘分享提取码：KgVz

硬字幕提取工具配套APP（SubtitleEdit3.6.5内含tesseract5.01聊胜于无、VSF5.5、Snipaste）

链接：夸克网盘分享提取码：9BNA

2022.06.20更新：

1、清除一个folder内文件变化后做refresh folder动作会出错的问题（感谢@乂MAN哥乂的测试）

2022.06.06更新：

1、清除一个大图窗复制到剪贴板失败的问题

2022.05.15更新：

1、优化tr遇到特殊图片识别exception终止识别进度的问题，现在遇到这种情况会标记为空，跳过继续识别进度

2、删除合并标记框，线宽改小了一些

2022.04.29更新：（感谢@乂MAN哥乂的建议和测试）

1、校对窗文本框增加了右键菜单，可以添加<i></i> 、{\an1}等srt、ass文件控制标记

2、清除了一些bug

2022.04.24更新：（感谢@乂MAN哥乂的建议和测试）

1、清除一个空图片标记的bug（未识别过的图片也误标记了）

2022.04.22更新：（感谢@乂MAN哥乂的建议和测试）

1、字体设置新增支持粗体、斜体、下划线、删除线

2、清除一个空图片标记的bug，工具关闭后再进入，空标记不会显示

3、修复导入srt时间过长导致工具挂起无反应的问题

2022.04.10更新：（感谢@乂MAN哥乂的建议和测试）

1、校对窗选择合并图片，原Shift+鼠标左键，改成Ctrl+Shift+鼠标左键

2、系统设置中，增加了‘键盘和鼠标快捷键列表’，方便查询记忆

3、校对窗鼠标模拟键盘，增加了‘插入双空格’功能

2022.04.09-2更新：（感谢@乂MAN哥乂的建议和测试）
1、校对窗Alt+鼠标左键选择合并图片，现改成Shift+鼠标左键

2022.04.09更新：（感谢@乂MAN哥乂的建议和测试）

1、校对窗删合跨度改为上一页+本页=2页

2、校对窗Alt+up/down文本框切换，改成Ctrl+up/down

2022.04.08-2更新：（感谢@乂MAN哥乂的建议和测试）
1、清除图片文件夹为空时，点‘系统设置’、‘返回主界面’会exception的bug.

2022.04.08更新：（感谢@乂MAN哥乂的建议和测试）

1、校对窗恢复‘导入SRT’功能，在‘生成SRT’鼠标右键菜单中

2、校对窗新增支持sup/idx+sub图形字幕叠图识别（SubtitleEdit3.6.5打开sup导出后识别，具体看用户手册）

3、Notepad++换Notepad3，更轻量，I like it...

4、更新了用户使用手册

2022.04.05更新：（感谢@乂MAN哥乂的建议和测试）

1、校对窗新增‘查找替换’功能，内置Notepad++

2、校对窗新增‘字体’设置功能

3、校对窗新增‘前距ms’显示功能（帮助判断是否应当合并），删除合并范围调整为本页+前后1页，支持跨页合并，合并标记从ctrl+鼠标右键改为alt+鼠标左键，不再跟右键菜单冲突。

4、改善在文本框内插入或修改句首第一个字符时，整句变成左对齐显示的问题（tkinter的bug）

5、校对窗鼠标左键、右键增加模拟‘插入回车’功能

6、清除了删合窗1ms合并提示未正常提示的问题，现在都能正常提示

7、消除了字号调整时窗体晃动的问题

8、优化了百度ocr服务器不返回死等的问题

9、优化了讯飞ocr网络容易断的问题

10、大图、截图窗布局调整，增加了‘图靠上’显示功能，并清除了一些bug

11、清除了其他一些bug，更新了用户使用手册，版本号更新到9.0

8.0 最新版（64bit）下载地址：

不支持离线OCR版本（20220314更新）：

链接：https://pan.baidu.com/s/16ZzxbzG9U61OuaFc--8NsA

提取码：2021

支持离线OCR版本（体积较大）：

链接：https://pan.baidu.com/s/1c1BW0GLI7XZDOhPedd2vVw （先下载这个11.05大包）

链接：https://pan.baidu.com/s/1bfFcRCyFjPpJ-8TynlbQYg（再下载这个2022.03.14 更新，替换大包中同名exe）

提取码：2021

2022.03.14更新：

1、清除一个.png文件显示为全黑的问题，当png文件带alpha通道会导致

2022.03.09更新：

1、系统设置增加“识别为单行”选项，专门配合百度高精度OCR引擎返回不带坐标，若视频中字幕为单行，则用百度高精度时，应当勾选之（具体原因看用户使用手册）

2、校对窗新增支持合并功能，ctrl+鼠标右键选中去选中图片（而删合窗是鼠标右键选中去选中图片），并增加了“删合”按钮。如在校对过程中发现上一步删合不彻底有遗漏（经常遇到），满足在校对窗中做简单的删合操作，不用返回删合窗中。

3、校对窗新增鼠标右键模拟功能（系统设置中设置）：“插入空格”、“Backspace按键”、“Delete按键”，可告别手忙脚乱，提高校对速度。

4、删合窗新增当前点击图片号显示，方便查对应图片文件

5、清除一个有道OCR返回结果错位的bug

2022.02.15更新：

1、清除一个paddle离线OCR日语不工作的bug（升级paddle代码时新引入的）

2021.12.20更新：

1、清除一个校对窗文本框只有一个字符时左侧添加字符会加到右侧的bug。

2、支持了“语音提词”和本工具同时运行。

2021.12.05更新：

1、校对窗可Alt + 上下、PgUpPgDn，键盘切换文本框编辑，适合不用鼠标纯用键盘的用户。

2、删合窗合并提示ms数可记忆

2021.11.05更新：

1、清除tr、easy离线引擎在中文安装目录下不能工作的bug。

2021.11.02更新：

1、新增离线条码扫描引擎（PC须已安装java才能使用此功能）。

2、修复相机打开速度慢的问题。

2021.11.01更新：

1、优化了软件架构，优化了图形性能（打包增加了cv2和numpy，因此体积变大了）。

2、增加了检测框功能，可随时开启关闭，方便判断OCR检测识别准确率。

3、校对窗文本框每一行可设置字体大小，可设置左对齐，可依图校对更方便。

4、用百度手写替换了原来的百度低精度，讯飞OCR增加了3种新引擎，包括手写识别。

5、增加了拍照识别功能，可用摄像头拍实物做识别。

6、支持ctrl+鼠标滚轮做图片缩放。窗体可记忆最大化（tkinter是不是很烦？）

2021.10.17更新：
1、修复7.0版一个校对窗缩放模糊的问题，请用新的exe替换原来的exe。
2、优化了离线ocr

2021.10.10更新：

1、修复7.0版一个校对窗PgUp、PgDn导致翻页而文本框操作中断的问题，请用新的exe替换原来的exe。

2021.10.08更新：

1、修复7.0版一个VSF运行后进入‘删合窗’可能崩溃的问题，请用新的exe替换原来的exe。

2021.10.05更新：

1、新增3个离线OCR引擎，需要离线支持请下载离线版本（体积较大）。

2、新增OCR识别过程自动标注空字幕图片功能，快来体验吧。

3、新增ctrl+鼠标左键，标注图片，支持所有窗口标注操作。

4、校对窗鼠标一键插入空格，统一为一键插入，不需两次按键。

5、校对窗新增1~3组图文设置，满足对超大字号的需求。校对窗支持1~7组图文，8~10组太多眼花取消支持。

6、界面适配了各种屏幕分辨率，老土的tkinter终于像个样了。。。

7、版本更新到7.0，更新了用户使用手册。

6.7 最新版（64bit）下载地址：

链接：https://https://pan.baidu.com/share/init?surl=ZHT6EPMI3Kfv8xDGzN8-6QMI3Kfv8xDGzN8-6Q

提取码：2021

1、优化了界面、增加了翻页按键、更好地支持全屏，快来体验吧。

2、主界面、截图窗、校对窗都有提供三大魔棒：‘增强魔棒’、‘对齐魔棒’、‘字号魔棒’，快来体验吧。

3、删合窗图片组数设置，由原来的36、44、56 改为 50、75、100、125，由原来的4列改为5列。校对窗图文组数设置，由原来的4、5、6、7、8 改为 4、5、6、7、8、9、10。以便支持2K显示器用户能看得更多，快来体验吧。

4、版本号更新至6.7，更新了用户使用手册。

2021.09.16更新：

1、因程序采用的图形库有局限性，导致同一个程序在不同PC上界面显示不同，因此以前做了好几个界面适配。经过努力克服图形库的局限性，现基本能做到同一个程序在不同PC上都有正常的显示。目前提供的“硬字幕提取工具6.6”支持1080p及以上（2k）分辨率的桌面，运行工具如果界面超出屏幕外，可在桌面空白处--鼠标右键--显示设置--更改文本、应用等项目的大小--改设置为100%，请大家试用反馈。

2、删合窗图片组数设置，由原来的28、36、44改为36、44、56。校对窗图文组数设置，由原来的4、5、6改为4、5、6、7、8。以便支持2K显示器用户能看得更多。

3、增加了翻页和删除合并音效

4、版本更新至6.6，更新了用户使用手册

2021.09.13更新：

1、修复了进度条长度异常问题

2021-09-02更新：

1、允许秘钥拷贝填写误多输入空格

另：拙作 “语音提词1.1”发布了！专注于语音识别和字幕翻译，是听不懂外语啃生肉的利器！黃藥師：语音提词1.0(原创) 采用Spleeter（分离人声）+ 断句分割算法，将视频、音频文件中的语音片段单独提取出来，通过讯飞百度ASR语音识别引擎将语音识别为文字，一键生成字幕，同时还集成了单独的字幕翻译工具。

2021-04-29以来积累更新：

6.3开放了5个OCR，对比6.2只开放了1个OCR

因近期百度免费额度政策调整，导致很多新用户额度不够用，故开放5个OCR，不够用的朋友可以实名申请最多5个OCR秘钥填入，从而提供5倍于单个账号的免费额度。如果还不够用，请购买OCR服务商的额度。

6.5版新增“鼠标左键一键定位+同时插入空格”功能，校对窗中文本框只须按一下鼠标左键就能插入一个空格，对于百度高精度这种文字识别率很高，但是空格不能识别，需要补漏空格的校对工作，变得更轻松了。对比6.3及以前版本支持“鼠标左键定位+鼠标右键插入空格”，须按两下鼠标才能插入一个空格（继续支持）。具体请看6.5版用户使用手册 - 校对窗章节。

2021-04-29更新：

1、去掉字幕字体像素大小的限制，以适应大字体或4K视频

2021-04-29更新：

1、删合窗增加“合并提示”功能，可根据图片间隔ms数标记哪些图片可能可以合并（VSF出来的轴有些挨得很近，设置成1ms就可以发现一些可能须要合并的图片）（谢谢@Chris Chris 建议）

2、更新了使用手册

3、清除一些新引入的bug（谢谢@Chris Chris 提醒）

2021-04-25更新：

https://ai.baidu.com/support/news?action=detail&id=2390

百度公司免费额度政策将调整（500每日->1000每月，市场推广期结束了撒），如果没有实名认证的账号，快去做：实名认证并识别一下（调用一次即可），做过的账号将维持原免费额度不变。

1、更新了设置界面

2、清除一个浏览空目录会出错的bug（谢谢@CHAO1356提醒）

3、更新了用户使用手册

2021-04-24更新：

1、截图、大图识别窗，增加了缩进、行距设置slider，可以由用户自己设置输出的排版

2、新增支持32bit系统

3、新增支持OCR识别后返回删合窗，做删合操作（谢谢@xqyd 提醒）

2021-04-21更新：

1、清除讯飞OCR一个bug

2021-04-19更新：

1、清除一个校对窗删除图片时，如光标在其他文本框中，会连带delete一个字符的bug（谢谢@xqyd 提醒）

2、清除删合窗多选不正常的bug（谢谢@xqyd 提醒）

3、优化了删合窗翻页响应，更迅速

4、清除了删合窗一个翻页bug

6.2版本对比6.1版本的提升，包括：

1、重写了删合窗，增加了动画滚动体验（python用tkinter能做到的极限了），去掉了翻列设置，现在滚动一下步进3列（滚多少列都可能觉得眼花，密集阵无法避免，不喜欢动画可以关闭动画，界面上有开关）。

2、删合窗，合并操作增加了组间分隔标记（Ctrl+鼠标右键），爱心保留标记改为鼠标右键双击，更加方便（谢谢@xqyd 提醒）

3、删合动作，程序改为先合，再删，不会因为先删导致本来隔着删的两组合，因为删而可能变成挨在一起，变成一组合（除bug）。

4、文本输入支持undo（ctrl+z）、redo（ctrl+y）

5、更新了6.2使用手册

2021-04-13更新：

1、在@shadowxiao 小姐姐的帮助下，调了界面参数，于是这个工具软件终于有了正常的界面了！它再也不是一个徒有内涵、没有外表的使唤了！再次感谢！以后更新版本都会有两个进度条长度版本exe，功能完全一样。如果其中一个界面显示长度不对，就用另外一个

2、删合窗组数调整为 28、36、44，原来的56界面太高，完全超出了屏幕。

3、删合窗，用户可以选择合并时保留哪张图片。

4、调教截图窗缩进、行距等参数，识别结果更接近大图真实排版。

2021-04-12更新：

主要是增加了讯飞OCR，记住要选‘文字识别-- 印刷文字识别（多语种）’，服务接口认证信息为三项：APPID、APISecret、APIKey，其他三种包括手写识别，对空格识别率都不高，只有这种高。虽然讯飞文字识别率没有百度高（毕竟讯飞语音识别才是强项），但是胜在空格识别率高很多，同时0元购送10W次（没错是100000），不用叠图都用不完(建议不要叠了，讯飞的文字识别率不太高。。。)。如果发现讯飞对文字识别率不高，可以开启增强魔棒，并将对比度设为99，算是一种弥补吧，后期再用SubtitleEdit、Aegisub做错字替换。

同时改进了删合窗，使用更方便了。。。

6.1版本对比6.0版本的提升，包括：

1、增加讯飞OCR，目前空格识别率最高（实测讯飞93%，有道80%，百度G 65%，百度A 0%）

2、删空窗改为删合窗，增加了合并功能，

布局由3列改为4列，增加左右键浏览翻页，增加了翻列（滚动一下步进一列）

原页内删除合并操作继续支持，同时删除合并选择标记翻页不会丢失，所有页标记完最后可做一次总体删除合并，不用每页单独操作（感谢@xqyd 的建议）

3、重新布局截图窗，改进使用体验，大图识别、截图识别，以后都到这里来做。

4、增加更多告警错误信息打印，出问题时用户不再‘一头雾水’

5、更新了6.1使用手册

2021-04-04更新：

1、增加‘删空窗’，用于清理空字幕图片。（合并功能？技术上可实现，但是怎么知道两个同样的字幕一定就是没有去重的呢？例如‘啊’‘啊’‘啊’（嗯！有开车嫌疑）可能是重复的，也可能是正常的，扔到SubtileEdit或Aegisub中借助时间轴和波形来判断不更好吗？好吧，加上了。。。）

2、将‘删空窗’、‘校对窗’移到主界面上，不需要来回切换。

3、更新了6.0使用手册

2021-04-02更新：

1、优化了校对窗的使用体验，输入法输入时不用担心鼠标指针不在文本框中了（谢谢@xqyd @394730122 提醒）

2、增加了校对窗组数设置，以适应不同分辨率的屏幕。

3、更新了使用手册

2021-03-29更新：

修复了操蛋的百度OCR在纯英文字幕且较模糊时选中英混合语言模式容易叠图错位-间隔标记丢失的问题，导致小概率叠图识别失败，过后程序会自动采用单图识别做补识别！而搜狗有道OCR则完全没有这种问题。。。这种情况下百度如改用半叠则很难出现问题。。。这种极限情况下的改进，让程序更加Robust了。。。

结论：

虽然能补识别，还是建议纯英文字幕采用半叠或不叠，仍旧选中英混合语言模式（百度语言选英语识别纯英文字幕会在标点前添加空格，紧接下来的断句空格会丢失，这是个烦人的bug！中英混合语言模式却没有这个bug！晕。。。看来百度把主要精力放在中英混合这个模型上了，总之大家批量识别前多做试验，选自己满意的设置吧），国产OCR对英语和拉丁语系的支持肯定没有中文强，这是必然的。实际测试纯英文字幕识别率：搜狗>有道>百度。

感慨：

同样是检测和识别，不同厂家的机器学习模型在某些方面表现差别挺大的，就好像小孩学习，给他灌输的知识不同，灌输的方式不同，开悟得就不同，不仅要喂巨量数据以便找到规律，还要防止过拟合训练出怪癖，深度学习虽然模式简单，却不是单单有深度就可以的，挺考验科研人员的。。。

使用过程中有任何问题，请先阅读用户使用手册，如果觉得可能是bug，请在这里留言，作者会一一答复，

如果您有好的建议，非常恳请您不吝提出来，一起探讨，可行的话会做进去，感谢您的支持！

另：工具目前支持百度搜狗有道讯飞OCR，一直想集成更多可用的OCR，

第一梯队：

百度搜狗有道讯飞，已集成。

google云双币信用卡注册都过不了，没法试呢。

腾讯云、腾讯优图（将并入腾讯云），高精度版识别率还行，但是有两大障碍导致不想集成：1、价格太高（280RMB/千次，是其他厂家的十倍）2、申请公有云账号审批等待长达三周以上（我4月1号申请，25号通过）。跟百度没法比，百度的OCR服务器据说已经空闲得用来识别每一张贴吧图片。

第二梯队：

包括商用的德国OCR.Space、京东云、华为云、阿里云、好未来、薪火，实际测试过效果（主要是识别率，特别是繁体）都不太行。

第三梯队：

几种开源OCR例如：Tesseract OCR、EasyOCR、PaddleOCR、PaddleHub、chineseocr_lite, 离能用（主要是识别率和速度）还有较大距离。

如果大家有听说过能用的OCR，请告知，能用的都会集成进来。

看来AI还是中美引领全球的，生在中华家也挺不错呢。。。

免责声明：

本工具仅供个人使用，为业余提取字幕的朋友提供方便，不可用于商业目的，不可侵犯他人知识产权。

同时，作者建议有长期大量需求的用户，请购买OCR服务商的额度，支持国家高科技发展。

作者并非百度广告代言人，不过目前百度有新用户1元购1W次网络图片文字识别（跟高精度差不多）优惠活动，忍不住要推荐给大家：

https://cloud.baidu.com/campaign/2022ocr/index.html?track=4fce6eb81bf89bbf0191866439e9cd65bc52e6bbaa0b7628

防走失链接：https://www.zhihu.com/people/huang-yao-shi-91-46/posts

fuyouquan · 发表于 2021-3-3 22:19:58

还能断句加空格，是根据videosubfinder截图断的还是根据语音断的？我之前用https://bbs.acgrip.com/forum.php ... ight=videosubfinder，思路和工具都跟这个差不多，但前些日子抄的几集动画的字幕，本身空格很多，只能后期一个个补；然后有一些又是句子其实是前后间隔很长的，但为了句子的流畅合在一句里。

hx168 · 发表于 2021-3-3 22:33:39

fuyouquan 发表于 2021-3-3 22:19
还能断句加空格，是根据videosubfinder截图断的还是根据语音断的？我之前用https://bbs.acgrip.com/forum.ph ...

是利用百度实现的，支持空格重现，特别是字幕清晰工整的情况下，重现效果较好

fuyouquan · 发表于 2021-3-3 22:44:27

本帖最后由 fuyouquan 于 2021-3-4 11:45 编辑

那还有，像TVB的字幕，如图

我记得百度识图对问号啊、逗号啊都是识别成英文的，
那TVB这种，它也是用英文标点，然后后面我不确定是不是补了一个半角空格，但要是没有这个空格的间距就会不明显，像这种空格能补上吗？
但这个问题绝对不大，有标点的话再在Subtitle edit或aegisub里批量替换还不简单。

fuyouquan · 发表于 2021-3-3 22:44:48

那还有，像TVB的字幕，如图

我记得百度识图对问号啊、逗号啊都是识别成英文的，
那TVB这种，它也是用英文标点，然后后面我不确定是不是补了一个半角空格，但要是没有这个空格的间距就会不明显，像这种空格能补上吗？
但这个问题绝对不大，有标点的话再在Subtitle editr或aegisub里批量替换还不简单。

yjyz1011 · 发表于 2021-3-3 23:07:48

好用，感觉文字逐行校准功能在这个软件这里做更好。

hx168 · 发表于 2021-3-3 23:09:11

fuyouquan 发表于 2021-3-3 22:44
那还有，像TVB的字幕，如图
我记得百度识图对问号啊、逗号啊都是识别成英文的，
那TVB这种，它也是用英文标 ...

发的图片看不到你可以下载运行试试看有没你说的这种问题

hx168 · 发表于 2021-3-3 23:10:39

yjyz1011 发表于 2021-3-3 23:07
好用，感觉文字逐行校准功能在这个软件这里做更好。

有人喜欢就好。
请多反馈意见，谢谢

hx168 · 发表于 2021-3-3 23:17:56

yjyz1011 发表于 2021-3-3 23:07
好用，感觉文字逐行校准功能在这个软件这里做更好。

如果VSF不漏轴，的确不需要subtitleEdit做校对，就怕有漏

yjyz1011 · 发表于 2021-3-3 23:33:48

hx168 发表于 2021-3-3 23:17
如果VSF不漏轴，的确不需要subtitleEdit做校对，就怕有漏

不是漏轴的问题，主要问题是百度OCR不是100准确的，每行文字其实都需要人工核对，这个软件没有人工核对修改，保存的功能，不太方便。

		自动登录	找回密码
密码			立即注册

硬字幕提取工具10.0 - 超好用（”语音提词2.0”发布了！欢迎试用）

评分