本帖最后由 hx168 于 2024-11-18 17:25 编辑
https://www.zhihu.com/people/huang-yao-shi-91-46/posts
一、 目前为止可行的硬字幕(hardsub)提取方案这里只说“可行”的方案,那些不成熟的、按时收费的,用过就删的,不在此列。
1. 人工手提,用眼和手来提取时间轴和文字。优点:准确率高(废话)。 缺点:费时费力,不能常做。 2. esrXP + IdxSubOcr(MODI OCR)esrXP提取视频中带字幕的图片(从而也就提取了时间轴信息),打包成idx+sub文件,然后导入IdxSubOcr用微软MODI ocr识别文字,生成一个srt字幕文件。 优点:利用传统数字图像处理技术,获得字幕出现和消失的时间点,提取时间轴信息,准确率较高。 缺点:老掉牙的微软MODI ocr识别引擎准确率较低,为了照顾MODI ocr,esrXP需要做较多设置、试验、调整参数的工作,以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说使用门槛高、识别率较低、工作量较大。虽然esrXP已经停更多时,但是苦于没有更好的选择,长期以来字幕爱好者只能将就着用。 3. VideoSubFinder + ABBYY FineReaderVideoSubFinde做类似esrXP的工作(不同的是单独保存每个字幕图片,不打包成idx+sub文件),ABBYY FineReader 15做类似IdxSubOcr的工作,将每个jpg字幕图片ocr识别为一个txt文件,然后回到VideoSubFinder 将所有txt文件合成一个srt文件。 优点:跟esrXP类似,采用了更复杂的数字图像处理技术,提取视频中带字幕的图片和时间轴信息,更好的去重算法,准确率进一步提高。ABBYY FineReader 15除了能ocr中英文,还支持其他语种。 缺点:VideoSubFinder仍然基于传统的数字图像处理技术(灰度膨胀腐蚀轮廓色度亮度相似度),虽然能较好提取普通静态字幕(显示固定颜色固定,大多数视频中硬字幕皆属此类),但是对于一些动态字幕(显示变化颜色不定),难以提取。虽然暴露了很多参数给用户,但是参数繁多难以理解,普通用户只能用默认设置。 ABBYY FineReader 15离线文字ocr引擎,虽然比MODI ocr好得多,但在实际使用效果上,对比近年AI人工智能训练的识别引擎(例如百度OCR通用文字识别引擎),识别准确率还是差了一大截。 4. 硬字幕提取工具10采用AI文字检测+传统的数字图像处理技术(保留支持VideoSubFinder老用户),提取字幕图片和时间轴信息,然后利用百度讯飞有道OCR通用文字识别云引擎+离线ocr引擎识别出文字,校对后生成srt字幕文件,最后还可选调用第三方工具APP(例如SubtitleEdit)做调轴补漏等工作,从开始到结束,整个字幕提取流程一气呵成,快速准确、识别率高、省时省力。
拙作 “语音提词2.0”发布了!专注于语音识别和字幕翻译,是听不懂外语啃生肉的利器!黃藥師:语音提词1.0(原创) 采用Spleeter(分离人声)+ 断句分割算法,将视频、音频文件中的语音片段单独提取出来,通过讯飞百度ASR语音识别引擎将语音识别为文字,一键生成字幕,同时还集成了单独的字幕翻译工具。
硬字幕提取工具10.0下载链接(下载完先关闭夸克再解压):
硬字幕提取工具10.0-支持离线OCR版本:
链接:夸克网盘分享 提取码:rRJk (解压覆盖以前大包中同名文件)
硬字幕提取工具10.0-不支持离线OCR版本:
链接:夸克网盘分享 提取码:skEc (解压覆盖以前大包中同名文件)
2024.11.18更新:
支持百度pid不同长度
硬字幕提取工具10.0-支持离线OCR版本:
链接:夸克网盘分享 提取码:CQb3 (先下载这个0914大包6GB,已下载过的不用再下)
链接:夸克网盘分享 提取码:bhWv (再下载这个1222更新包,解压覆盖0914大包中同名文件)
硬字幕提取工具10.0-不支持离线OCR版本(200M):
链接:夸克网盘分享 提取码:x4jn
Google Drive:先下载20220914大包,再下载20221222更新包解压覆盖0914大包中同名文件
2022.12.22更新
1、修复一些bug,优化一些操作
2、调整 跳到首页末页 快捷键,原Ctrl+左、右,改为Home、End
3、所有窗新增支持Ctrl+↑/↓图片、文本框切换
4、更新了用户使用手册
2022.12.17更新 1、删合窗、校对窗 新增当前图片指示,文件列表与图片同步高亮,方便查看图片对应时间轴信息。点击图片,对应列表文件(时间轴)会同步显示,反之点列表文件,对应图片会同步高亮。
2、校对窗图片与文字中央对齐了,适合懒得做精准对齐的用户。
2022.12.03更新
1、校对窗新增‘繁简转换’功能。支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。
2、新增支持10hour以上视频字幕提取。
3、修复一些bug
2022.09.20更新
1、支持在校对窗OCR后返回删合窗做合并,然后返回校对窗还能保留编辑过的文字和检测框,虽然是少数人的需求,也支持吧。
2022.09.17更新 1、优化了paddle 、tr扫描空图算法,更准确
2、删合窗新增‘( )‘ 快捷键,用于调整X标记的显示位置,以前X标记显示在正中,现可右移最多1/4图宽
3、校对窗新增D、M数目显示,与删合窗同,可实时显示总共X标记与合并标记数目。
4、校对窗新增‘集删’按钮,跟删合窗‘集删’类似,将OCR后自动标记X的图片集中起来一次完成删操作,提高了效率。
5、清除了一些bug,更新了用户使用手册,更新了里面的3个使用案例,老用户可直接看这3个案例,体验新功能
2022.09.14更新
1、0913更新漏打包一个文件,请重新下载最新版
2022.09.13更新
1、大幅优化了智能截图算法,提升了速度,精细调参,提升了分割合并准确度,补偿了字幕起始时间,更精准,
100ms默认截图间隔,彩虹字幕轻松实现100%不漏,字幕起始时间误差+-50ms以内。2小时1080p双行彩虹字幕提取图片只要30分钟可完成,立即OCR。
2、删合窗新增‘集合’按钮,跟‘集删’类似,将合并建议集中起来操作,不用翻页找标记,提高了合并效率。
3、删合窗新增‘ctrl+鼠标左键‘ 快捷键,对应‘单拷’/‘单清’,用于拷贝清除单个合并建议,依葫芦画瓢手工标注更高效
4、删合窗新增‘< >‘ 快捷键,用于快速跳到下一个/上一个有合并建议的页。
5、校对窗新增‘删合’按钮,删合操作页数范围由原来的 本页+下一页,改为 本页+上一页
6、清除了一些bug,更新了用户使用手册,更新了里面的3个使用案例,老用户可直接看这3个案例,体验新功能
2022.09.11更新 1、增加了校对窗ctrl+F快捷键,对应‘查找替换’ 2、清除了一些bug
2022.09.07更新(仅离线版):
1、调整了智能截图采样间隔机制,以适应恒定和可变帧率CFR、VFR,新版可变帧率允许变化范围不受限制(前版在大范围变化时有低几率漏字幕),实际采样间隔ms数在截图过程中有直观显示。同时更新了用户使用手册。
2022.09.06更新: 1、优化智能截图速度,支持自动合并,对比上一版有10%提速 2、优化智能截图引擎代码,精细调参,提升了分割合并准确度 3、新增集中删除空图功能,将所有自动标记的空图集中到一页中过目,很快就能确定哪些是误标注,而不用像以前翻页过目,大大提升了删的操作便利和效率 4、新增删合窗便捷键:Space(切换删操作、合操作)、D(页删)、M(页合)、C(页清),T(显示前距),边删边合更方便 5、系统设置新增GPU开关,没有N卡或者没装cuda的用户,不要勾选GPU 6、更新了 三个智能截图案例,会发现又进一步简化了,完成彩虹字幕提取,也就几下鼠标操作 7、清除了一些bug,更新了用户使用手册
2022.08.31更新:
1、优化智能截图速度,对比上一版有20%提速
2、新增了‘自动合并’设置,智能截图完成返回删合窗,会提示自动合并,简化了删合设置和操作
3、新增tr作为‘扫描空图’默认引擎,比paddle更准确,界面可设置3种扫描引擎
4、重写了 三个智能截图案例,会发现更简单了,完成彩虹字幕提取,也就几下鼠标操作
2022.08.16更新: 1、清除一个智能截图算法bug,现在效果好多了 2、简化了删合操作 3、easy上个发布漏打包一些库导致未能加载,现已打包好 4、用户使用手册,新增3种智能截图案例:1)简单固定字幕,2)复杂固定字幕,3)渐变字幕(彩虹字幕)
2022.08.12更新: 1、合并了OCR主窗和校对窗,OCR后直接校对 2、删合窗大改,删合操作更方便 3、集成了VSF,并新增了一个类似VSF的工具-智能截图(须离线版),既能完全替代VSF对静态字幕(固定显示、固定颜色)的提取,又能弥补VSF对动态字幕(动态显示、不定颜色,例如彩虹字幕)无能为力的缺陷。保留VSF是为了一惯性。
9.0 最新版(win10/win11)下载地址: 不支持离线OCR版本(20220620更新): 支持离线OCR版本 (体积较大,先下载这个20220408大包-已下过的不用再下,再下载20220620更新替换大包中同名exe): 硬字幕提取工具配套APP(SubtitleEdit3.6.5内含tesseract5.01聊胜于无、VSF5.5、Snipaste) 2022.06.20更新: 1、清除一个folder内文件变化后做refresh folder动作会出错的问题(感谢@乂MAN哥乂的测试) 2022.06.06更新: 1、清除一个大图窗复制到剪贴板失败的问题 2022.05.15更新: 1、优化tr遇到特殊图片识别exception终止识别进度的问题,现在遇到这种情况会标记为空,跳过继续识别进度 2、删除合并标记框,线宽改小了一些 2022.04.29更新:(感谢@乂MAN哥乂的建议和测试) 1、校对窗文本框增加了右键菜单,可以添加<i></i> 、{\an1}等srt、ass文件控制标记 2、清除了一些bug 2022.04.24更新:(感谢@乂MAN哥乂的建议和测试) 1、清除一个空图片标记的bug(未识别过的图片也误标记了) 2022.04.22更新:(感谢@乂MAN哥乂的建议和测试) 1、字体设置新增支持粗体、斜体、下划线、删除线 2、清除一个空图片标记的bug,工具关闭后再进入,空标记不会显示 3、修复导入srt时间过长导致工具挂起无反应的问题 2022.04.10更新:(感谢@乂MAN哥乂的建议和测试) 1、校对窗选择合并图片,原Shift+鼠标左键,改成Ctrl+Shift+鼠标左键 2、系统设置中,增加了‘键盘和鼠标快捷键列表’,方便查询记忆 3、校对窗鼠标模拟键盘,增加了‘插入双空格’功能 2022.04.09-2更新:(感谢@乂MAN哥乂的建议和测试)
1、校对窗Alt+鼠标左键选择合并图片,现改成Shift+鼠标左键
2022.04.09更新:(感谢@乂MAN哥乂的建议和测试) 1、校对窗删合跨度改为上一页+本页=2页 2、校对窗Alt+up/down文本框切换,改成Ctrl+up/down 2022.04.08-2更新:(感谢@乂MAN哥乂的建议和测试)
1、清除图片文件夹为空时,点‘系统设置’、‘返回主界面’会exception的bug.
2022.04.08更新:(感谢@乂MAN哥乂的建议和测试) 1、校对窗恢复‘导入SRT’功能,在‘生成SRT’鼠标右键菜单中 2、校对窗新增支持sup/idx+sub图形字幕叠图识别(SubtitleEdit3.6.5打开sup导出后识别,具体看用户手册) 3、Notepad++换Notepad3,更轻量,I like it... 4、更新了用户使用手册 2022.04.05更新:(感谢@乂MAN哥乂的建议和测试) 1、校对窗新增‘查找替换’功能,内置Notepad++ 2、校对窗新增‘字体’设置功能 3、校对窗新增‘前距ms’显示功能(帮助判断是否应当合并),删除合并范围调整为本页+前后1页,支持跨页合并,合并标记从ctrl+鼠标右键改为alt+鼠标左键,不再跟右键菜单冲突。 4、改善在文本框内插入或修改句首第一个字符时,整句变成左对齐显示的问题(tkinter的bug) 5、校对窗鼠标左键、右键增加模拟‘插入回车’功能 6、清除了删合窗1ms合并提示未正常提示的问题,现在都能正常提示 7、消除了字号调整时窗体晃动的问题 8、优化了百度ocr服务器不返回死等的问题 9、优化了讯飞ocr网络容易断的问题 10、大图、截图窗布局调整,增加了‘图靠上’显示功能,并清除了一些bug 11、清除了其他一些bug,更新了用户使用手册,版本号更新到9.0
8.0 最新版(64bit)下载地址: 不支持离线OCR版本(20220314更新): 提取码:2021 支持离线OCR版本(体积较大): 提取码:2021 2022.03.14更新: 1、清除一个.png文件显示为全黑的问题,当png文件带alpha通道会导致 2022.03.09更新: 1、系统设置增加“识别为单行”选项,专门配合百度高精度OCR引擎返回不带坐标,若视频中字幕为单行,则用百度高精度时,应当勾选之(具体原因看用户使用手册) 2、校对窗新增支持合并功能,ctrl+鼠标右键选中去选中图片(而删合窗是鼠标右键选中去选中图片),并增加了“删合”按钮。如在校对过程中发现上一步删合不彻底有遗漏(经常遇到),满足在校对窗中做简单的删合操作,不用返回删合窗中。 3、校对窗新增鼠标右键模拟功能(系统设置中设置):“插入空格”、“Backspace按键”、“Delete按键”,可告别手忙脚乱,提高校对速度。 4、删合窗新增当前点击图片号显示,方便查对应图片文件 5、清除一个有道OCR返回结果错位的bug 2022.02.15更新: 1、清除一个paddle离线OCR日语不工作的bug(升级paddle代码时新引入的) 2021.12.20更新: 1、清除一个校对窗文本框只有一个字符时左侧添加字符会加到右侧的bug。 2、支持了“语音提词”和本工具同时运行。 2021.12.05更新: 1、校对窗可Alt + 上下、PgUpPgDn,键盘切换文本框编辑,适合不用鼠标纯用键盘的用户。 2、删合窗合并提示ms数可记忆 2021.11.05更新: 1、清除tr、easy离线引擎在中文安装目录下不能工作的bug。 2021.11.02更新: 1、新增离线条码扫描引擎(PC须已安装java才能使用此功能)。 2、修复相机打开速度慢的问题。 2021.11.01更新: 1、优化了软件架构,优化了图形性能(打包增加了cv2和numpy,因此体积变大了)。 2、增加了检测框功能,可随时开启关闭,方便判断OCR检测识别准确率。 3、校对窗文本框每一行可设置字体大小,可设置左对齐,可依图校对更方便。 4、用百度手写替换了原来的百度低精度,讯飞OCR增加了3种新引擎,包括手写识别。 5、增加了拍照识别功能,可用摄像头拍实物做识别。 6、支持ctrl+鼠标滚轮做图片缩放。窗体可记忆最大化(tkinter是不是很烦?)
2021.10.17更新:
1、修复7.0版一个校对窗缩放模糊的问题,请用新的exe替换原来的exe。
2、优化了离线ocr
2021.10.10更新: 1、修复7.0版一个校对窗PgUp、PgDn导致翻页而文本框操作中断的问题,请用新的exe替换原来的exe。 2021.10.08更新: 1、修复7.0版一个VSF运行后进入‘删合窗’可能崩溃的问题,请用新的exe替换原来的exe。 2021.10.05更新: 1、新增3个离线OCR引擎,需要离线支持请下载离线版本(体积较大)。 2、新增OCR识别过程自动标注空字幕图片功能,快来体验吧。 3、新增ctrl+鼠标左键,标注图片,支持所有窗口标注操作。 4、校对窗鼠标一键插入空格,统一为一键插入,不需两次按键。 5、校对窗新增1~3组图文设置,满足对超大字号的需求。校对窗支持1~7组图文,8~10组太多眼花取消支持。 6、界面适配了各种屏幕分辨率,老土的tkinter终于像个样了。。。 7、版本更新到7.0,更新了用户使用手册。
6.7 最新版(64bit)下载地址: 1、优化了界面、增加了翻页按键、更好地支持全屏,快来体验吧。 2、主界面、截图窗、校对窗 都有提供三大魔棒:‘增强魔棒’、‘对齐魔棒’、‘字号魔棒’,快来体验吧。 3、删合窗图片组数设置,由原来的36、44、56 改为 50、75、100、125,由原来的4列改为5列。校对窗图文组数设置,由原来的4、5、6、7、8 改为 4、5、6、7、8、9、10。以便支持2K显示器用户能看得更多,快来体验吧。 4、版本号更新至6.7,更新了用户使用手册。
2021.09.16更新: 1、因程序采用的图形库有局限性,导致同一个程序在不同PC上界面显示不同,因此以前做了好几个界面适配。经过努力克服图形库的局限性,现基本能做到同一个程序在不同PC上都有正常的显示。目前提供的“硬字幕提取工具6.6”支持1080p及以上(2k)分辨率的桌面,运行工具如果界面超出屏幕外,可在桌面空白处--鼠标右键--显示设置--更改文本、应用等项目的大小--改设置为100%,请大家试用反馈。 2、删合窗图片组数设置,由原来的28、36、44改为36、44、56。校对窗图文组数设置,由原来的4、5、6改为4、5、6、7、8。以便支持2K显示器用户能看得更多。 3、增加了翻页和删除合并音效 4、版本更新至6.6,更新了用户使用手册
2021.09.13更新: 1、修复了进度条长度异常问题
2021-09-02更新: 1、允许秘钥拷贝填写误多输入空格 另:拙作 “语音提词1.1”发布了!专注于语音识别和字幕翻译,是听不懂外语啃生肉的利器!黃藥師:语音提词1.0(原创) 采用Spleeter(分离人声)+ 断句分割算法,将视频、音频文件中的语音片段单独提取出来,通过讯飞百度ASR语音识别引擎将语音识别为文字,一键生成字幕,同时还集成了单独的字幕翻译工具。
2021-04-29以来积累更新: 6.3开放了5个OCR,对比6.2只开放了1个OCR 因近期百度免费额度政策调整,导致很多新用户额度不够用,故开放5个OCR,不够用的朋友可以实名申请最多5个OCR秘钥填入,从而提供5倍于单个账号的免费额度。如果还不够用,请购买OCR服务商的额度。 6.5版新增“鼠标左键一键定位+同时插入空格”功能,校对窗中文本框只须按一下鼠标左键就能插入一个空格,对于百度高精度这种文字识别率很高,但是空格不能识别,需要补漏空格的校对工作,变得更轻松了。对比6.3及以前版本支持“鼠标左键定位+鼠标右键插入空格”,须按两下鼠标才能插入一个空格(继续支持)。具体请看6.5版用户使用手册 - 校对窗章节。
2021-04-29更新: 1、去掉字幕字体像素大小的限制,以适应大字体或4K视频
2021-04-29更新: 1、删合窗增加“合并提示”功能,可根据图片间隔ms数标记哪些图片可能可以合并(VSF出来的轴有些挨得很近,设置成1ms就可以发现一些可能须要合并的图片)(谢谢@Chris Chris 建议) 2、更新了使用手册 3、清除一些新引入的bug(谢谢@Chris Chris 提醒)
2021-04-25更新: https://ai.baidu.com/support/news?action=detail&id=2390 百度公司免费额度政策将调整(500每日->1000每月,市场推广期结束了撒),如果没有实名认证的账号,快去做:实名认证并识别一下(调用一次即可),做过的账号将维持原免费额度不变。 1、更新了设置界面 3、更新了用户使用手册
2021-04-24更新: 1、截图、大图识别窗,增加了缩进、行距设置slider,可以由用户自己设置输出的排版 2、新增支持32bit系统 3、新增支持OCR识别后返回删合窗,做删合操作(谢谢@xqyd 提醒)
2021-04-21更新: 1、清除讯飞OCR一个bug
2021-04-19更新: 1、清除一个校对窗删除图片时,如光标在其他文本框中,会连带delete一个字符的bug(谢谢@xqyd 提醒) 2、清除删合窗多选不正常的bug(谢谢@xqyd 提醒) 3、优化了删合窗翻页响应,更迅速 4、清除了删合窗一个翻页bug
6.2版本对比6.1版本的提升,包括: 1、重写了删合窗,增加了动画滚动体验(python用tkinter能做到的极限了),去掉了翻列设置,现在滚动一下步进3列(滚多少列都可能觉得眼花,密集阵无法避免,不喜欢动画可以关闭动画,界面上有开关)。 2、删合窗,合并操作增加了组间分隔标记(Ctrl+鼠标右键),爱心保留标记改为鼠标右键双击,更加方便(谢谢@xqyd 提醒) 3、删合动作,程序改为先合,再删,不会因为先删导致本来隔着删的两组合,因为删而可能变成挨在一起,变成一组合(除bug)。 4、文本输入支持undo(ctrl+z)、redo(ctrl+y) 5、更新了6.2使用手册
2021-04-13更新: 1、在@shadowxiao 小姐姐的帮助下,调了界面参数,于是这个工具软件终于有了正常的界面了!它再也不是一个徒有内涵、没有外表的使唤了!再次感谢!以后更新版本都会有两个进度条长度版本exe,功能完全一样。如果其中一个界面显示长度不对,就用另外一个 2、删合窗组数调整为 28、36、44,原来的56界面太高,完全超出了屏幕。 3、删合窗,用户可以选择合并时保留哪张图片。 4、调教截图窗缩进、行距等参数,识别结果更接近大图真实排版。
2021-04-12更新: 主要是增加了讯飞OCR,记住要选‘文字识别-- 印刷文字识别(多语种)’,服务接口认证信息为三项:APPID、APISecret、APIKey,其他三种包括手写识别,对空格识别率都不高,只有这种高。虽然讯飞文字识别率没有百度高(毕竟讯飞语音识别才是强项),但是胜在空格识别率高很多,同时0元购送10W次(没错是100000),不用叠图都用不完(建议不要叠了,讯飞的文字识别率不太高。。。)。如果发现讯飞对文字识别率不高,可以开启增强魔棒,并将对比度设为99,算是一种弥补吧,后期再用SubtitleEdit、Aegisub做错字替换。 同时改进了删合窗,使用更方便了。。。
6.1版本对比6.0版本的提升,包括: 1、增加讯飞OCR,目前空格识别率最高(实测讯飞93%,有道80%,百度G 65%,百度A 0%) 2、删空窗改为删合窗,增加了合并功能, 布局由3列改为4列,增加左右键浏览翻页,增加了翻列(滚动一下步进一列) 原页内删除合并操作继续支持,同时删除合并选择标记翻页不会丢失,所有页标记完最后可做一次总体删除合并,不用每页单独操作(感谢@xqyd 的建议) 3、重新布局截图窗,改进使用体验,大图识别、截图识别,以后都到这里来做。 4、增加更多告警错误信息打印,出问题时用户不再‘一头雾水’ 5、更新了6.1使用手册
2021-04-04更新: 1、增加‘删空窗’,用于清理空字幕图片。(合并功能?技术上可实现,但是怎么知道两个同样的字幕一定就是没有去重的呢?例如‘啊’‘啊’‘啊’(嗯!有开车嫌疑)可能是重复的,也可能是正常的,扔到SubtileEdit或Aegisub中借助时间轴和波形来判断不更好吗?好吧,加上了。。。) 2、将‘删空窗’、‘校对窗’移到主界面上,不需要来回切换。 3、更新了6.0使用手册
2021-04-02更新: 1、优化了校对窗的使用体验,输入法输入时不用担心鼠标指针不在文本框中了(谢谢@xqyd @394730122 提醒) 2、增加了校对窗组数设置,以适应不同分辨率的屏幕。 3、更新了使用手册
2021-03-29更新: 修复了操蛋的百度OCR在纯英文字幕且较模糊时选中英混合语言模式容易叠图错位-间隔标记丢失的问题,导致小概率叠图识别失败,过后程序会自动采用单图识别做补识别!而搜狗有道OCR则完全没有这种问题。。。这种情况下百度如改用半叠则很难出现问题。。。这种极限情况下的改进,让程序更加Robust了。。。 结论: 虽然能补识别,还是建议纯英文字幕采用半叠或不叠,仍旧选中英混合语言模式(百度语言选英语识别纯英文字幕会在标点前添加空格,紧接下来的断句空格会丢失,这是个烦人的bug!中英混合语言模式却没有这个bug!晕。。。看来百度把主要精力放在中英混合这个模型上了,总之大家批量识别前多做试验,选自己满意的设置吧),国产OCR对英语和拉丁语系的支持肯定没有中文强,这是必然的。实际测试纯英文字幕识别率:搜狗>有道>百度。 感慨: 同样是检测和识别,不同厂家的机器学习模型在某些方面表现差别挺大的,就好像小孩学习,给他灌输的知识不同,灌输的方式不同,开悟得就不同,不仅要喂巨量数据以便找到规律,还要防止过拟合训练出怪癖,深度学习虽然模式简单,却不是单单有深度就可以的,挺考验科研人员的。。。
使用过程中有任何问题,请先阅读用户使用手册,如果觉得可能是bug,请在这里留言,作者会一一答复, 如果您有好的建议,非常恳请您不吝提出来,一起探讨,可行的话会做进去,感谢您的支持!
另:工具目前支持百度搜狗有道讯飞OCR,一直想集成更多可用的OCR, 第一梯队: 百度搜狗有道讯飞,已集成。 google云双币信用卡注册都过不了,没法试呢。 腾讯云、腾讯优图(将并入腾讯云),高精度版识别率还行,但是有两大障碍导致不想集成:1、价格太高(280RMB/千次,是其他厂家的十倍)2、申请公有云账号审批等待长达三周以上(我4月1号申请,25号通过)。跟百度没法比,百度的OCR服务器据说已经空闲得用来识别每一张贴吧图片。 第二梯队: 包括商用的德国OCR.Space、京东云、华为云、阿里云、好未来、薪火,实际测试过效果(主要是识别率,特别是繁体)都不太行。 第三梯队: 几种开源OCR例如:Tesseract OCR、EasyOCR、PaddleOCR、PaddleHub、chineseocr_lite, 离能用(主要是识别率和速度)还有较大距离。
如果大家有听说过能用的OCR,请告知,能用的都会集成进来。 看来AI还是中美引领全球的,生在中华家也挺不错呢。。。
免责声明: 本工具仅供个人使用,为业余提取字幕的朋友提供方便,不可用于商业目的,不可侵犯他人知识产权。 同时,作者建议有长期大量需求的用户,请购买OCR服务商的额度,支持国家高科技发展。
作者并非百度广告代言人,不过目前百度有新用户1元购1W次网络图片文字识别(跟高精度差不多)优惠活动,忍不住要推荐给大家: https://cloud.baidu.com/campaign/2022ocr/index.html?track=4fce6eb81bf89bbf0191866439e9cd65bc52e6bbaa0b7628
防走失链接:https://www.zhihu.com/people/huang-yao-shi-91-46/posts
|