找回密码
 立即注册
查看: 107926|回复: 421

硬字幕提取工具10.0 - 超好用(”语音提词2.0”发布了!欢迎试用)

  • TA的每日心情
    开心
    2021-6-1 15:58
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    1

    主题

    209

    回帖

    0

    VC币

    金牌会员

    Rank: 6Rank: 6

    积分
    48040
    hx168 发表于 2021-3-3 21:34:09 | 显示全部楼层 |阅读模式
    本帖最后由 hx168 于 2024-11-18 17:25 编辑

    https://www.zhihu.com/people/huang-yao-shi-91-46/posts
    一、 目前为止可行的硬字幕(hardsub)提取方案
    这里只说“可行”的方案,那些不成熟的、按时收费的,用过就删的,不在此列。

    1. 人工手提,用手来提取时间轴和文字。
    优点准确率高(废话)。
    缺点费时费力,不能常做。
    2. esrXP + IdxSubOcr(MODI OCR)
    esrXP提取视频中带字幕的图片(从而也就提取了时间轴信息),打包成idx+sub文件,然后导入IdxSubOcr用微软MODI ocr识别文字,生成一个srt字幕文件。
    优点:利用传统数字图像处理技术,获得字幕出现和消失的时间点,提取时间轴信息,准确率较高。
    缺点:老掉牙的微软MODI ocr识别引擎准确率较低,为了照顾MODI ocr,esrXP需要做较多设置、试验、调整参数的工作,以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说使用门槛高、识别率较低、工作量较大。虽然esrXP已经停更多时,但是苦于没有更好的选择,长期以来字幕爱好者只能将就着用。
    3. VideoSubFinder + ABBYY FineReader
    VideoSubFinde做类似esrXP的工作(不同的是单独保存每个字幕图片,不打包成idx+sub文件),ABBYY FineReader 15做类似IdxSubOcr的工作,将每个jpg字幕图片ocr识别为一个txt文件,然后回到VideoSubFinder 将所有txt文件合成一个srt文件。
    优点:跟esrXP类似,采用了更复杂的数字图像处理技术,提取视频中带字幕的图片和时间轴信息,更好的去重算法,准确率进一步提高。ABBYY FineReader 15除了能ocr中英文,还支持其他语种。
    缺点:VideoSubFinder仍然基于传统的数字图像处理技术(灰度膨胀腐蚀轮廓色度亮度相似度),虽然能较好提取普通静态字幕(显示固定颜色固定,大多数视频中硬字幕皆属此类),但是对于一些动态字幕(显示变化颜色不定),难以提取。虽然暴露了很多参数给用户,但是参数繁多难以理解,普通用户只能用默认设置。
    ABBYY FineReader 15离线文字ocr引擎,虽然比MODI ocr好得多,但在实际使用效果上,对比近年AI人工智能训练的识别引擎(例如百度OCR通用文字识别引擎),识别准确率还是差了一大截。
    4. 硬字幕提取工具10
    采用AI文字检测+传统的数字图像处理技术(保留支持VideoSubFinder老用户),提取字幕图片和时间轴信息,然后利用百度讯飞有道OCR通用文字识别云引擎+离线ocr引擎识别出文字,校对后生成srt字幕文件,最后还可选调用第三方工具APP(例如SubtitleEdit)做调轴补漏等工作,从开始到结束,整个字幕提取流程一气呵成,快速准确、识别率高、省时省力。

    拙作 “语音提词2.0”发布了!专注于语音识别字幕翻译,是听不懂外语啃生肉的利器!黃藥師:语音提词1.0(原创) 采用Spleeter(分离人声)+ 断句分割算法,将视频、音频文件中的语音片段单独提取出来,通过讯飞百度ASR语音识别引擎将语音识别为文字,一键生成字幕,同时还集成了单独的字幕翻译工具。

    硬字幕提取工具10.0下载链接(下载完先关闭夸克再解压):

    硬字幕提取工具10.0-支持离线OCR版本:   

    链接:夸克网盘分享    提取码:rRJk   (解压覆盖以前大包中同名文件)

    硬字幕提取工具10.0-不支持离线OCR版本:

    链接:夸克网盘分享    提取码:skEc    (解压覆盖以前大包中同名文件)

    2024.11.18更新:

    支持百度pid不同长度





    硬字幕提取工具10.0-支持离线OCR版本:   

    链接:夸克网盘分享    提取码:CQb3  (先下载这个0914大包6GB,已下载过的不用再下)

    链接:夸克网盘分享    提取码:bhWv (再下载这个1222更新包,解压覆盖0914大包中同名文件)

    硬字幕提取工具10.0-不支持离线OCR版本(200M):

    链接:夸克网盘分享    提取码:x4jn


    Google Drive:先下载20220914大包,再下载20221222更新包解压覆盖0914大包中同名文件


    2022.12.22更新
    1、修复一些bug,优化一些操作
    2、调整 跳到首页末页 快捷键,原Ctrl+左、右,改为Home、End
    3、所有窗新增支持Ctrl+↑/↓图片、文本框切换
    4、更新了用户使用手册

    2022.12.17更新
    1、删合窗、校对窗 新增当前图片指示,文件列表与图片同步高亮,方便查看图片对应时间轴信息。点击图片,对应列表文件(时间轴)会同步显示,反之点列表文件,对应图片会同步高亮。
    2、校对窗图片与文字中央对齐了,适合懒得做精准对齐的用户。


    2022.12.03更新
    1、校对窗新增‘繁简转换’功能。支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。
    2、新增支持10hour以上视频字幕提取。
    3、修复一些bug


    2022.09.20更新
    1、支持在校对窗OCR后返回删合窗做合并,然后返回校对窗还能保留编辑过的文字和检测框,虽然是少数人的需求,也支持吧。


    2022.09.17更新
    1、优化了paddle 、tr扫描空图算法,更准确
    2、删合窗新增‘(      )‘ 快捷键,用于调整X标记的显示位置,以前X标记显示在正中,现可右移最多1/4图宽
    3、校对窗新增D、M数目显示,与删合窗同,可实时显示总共X标记与合并标记数目。
    4、校对窗新增‘集删’按钮,跟删合窗‘集删’类似,将OCR后自动标记X的图片集中起来一次完成删操作,提高了效率。
    5、清除了一些bug,更新了用户使用手册,更新了里面的3个使用案例,老用户可直接看这3个案例,体验新功能

    2022.09.14更新
    1、0913更新漏打包一个文件,请重新下载最新版


    2022.09.13更新
    1、大幅优化了智能截图算法,提升了速度,精细调参,提升了分割合并准确度,补偿了字幕起始时间,更精准,
    100ms默认截图间隔,彩虹字幕轻松实现100%不漏,字幕起始时间误差+-50ms以内。2小时1080p双行彩虹字幕提取图片只要30分钟可完成,立即OCR。
    2、删合窗新增‘集合’按钮,跟‘集删’类似,将合并建议集中起来操作,不用翻页找标记,提高了合并效率。
    3、删合窗新增‘ctrl+鼠标左键‘ 快捷键,对应‘单拷’/‘单清’,用于拷贝清除单个合并建议,依葫芦画瓢手工标注更高效
    4、删合窗新增‘<   >‘ 快捷键,用于快速跳到下一个/上一个有合并建议的页。
    5、校对窗新增‘删合’按钮,删合操作页数范围由原来的 本页+下一页,改为 本页+上一页
    6、清除了一些bug,更新了用户使用手册,更新了里面的3个使用案例,老用户可直接看这3个案例,体验新功能


    2022.09.11更新
    1、增加了校对窗ctrl+F快捷键,对应‘查找替换’
    2、清除了一些bug

    2022.09.07更新(仅离线版):

    1、调整了智能截图采样间隔机制,以适应恒定和可变帧率CFR、VFR,新版可变帧率允许变化范围不受限制(前版在大范围变化时有低几率漏字幕),实际采样间隔ms数在截图过程中有直观显示。同时更新了用户使用手册。

    2022.09.06更新:
    1、优化智能截图速度,支持自动合并,对比上一版有10%提速
    2、优化智能截图引擎代码,精细调参,提升了分割合并准确度
    3、新增集中删除空图功能,将所有自动标记的空图集中到一页中过目,很快就能确定哪些是误标注,而不用像以前翻页过目,大大提升了删的操作便利和效率
    4、新增删合窗便捷键:Space(切换删操作、合操作)、D(页删)、M(页合)、C(页清),T(显示前距),边删边合更方便
    5、系统设置新增GPU开关,没有N卡或者没装cuda的用户,不要勾选GPU
    6、更新了 三个智能截图案例,会发现又进一步简化了,完成彩虹字幕提取,也就几下鼠标操作
    7、清除了一些bug,更新了用户使用手册

    2022.08.31更新:
    1、优化智能截图速度,对比上一版有20%提速
    2、新增了‘自动合并’设置,智能截图完成返回删合窗,会提示自动合并,简化了删合设置和操作
    3、新增tr作为‘扫描空图’默认引擎,比paddle更准确,界面可设置3种扫描引擎
    4、重写了 三个智能截图案例,会发现更简单了,完成彩虹字幕提取,也就几下鼠标操作

    2022.08.16更新:
    1、清除一个智能截图算法bug,现在效果好多了
    2、简化了删合操作
    3、easy上个发布漏打包一些库导致未能加载,现已打包好
    4、用户使用手册,新增3种智能截图案例:1)简单固定字幕,2)复杂固定字幕,3)渐变字幕(彩虹字幕)

    2022.08.12更新:
    1、合并了OCR主窗和校对窗,OCR后直接校对
    2、删合窗大改,删合操作更方便
    3、集成了VSF,并新增了一个类似VSF的工具-智能截图(须离线版),既能完全替代VSF对静态字幕(固定显示、固定颜色)的提取,又能弥补VSF对动态字幕(动态显示、不定颜色,例如彩虹字幕)无能为力的缺陷。保留VSF是为了一惯性。

    9.0 最新版(win10/win11)下载地址:
    不支持离线OCR版本(20220620更新):
    链接:夸克网盘分享 提取码:cTVi
    支持离线OCR版本 (体积较大,先下载这个20220408大包-已下过的不用再下,再下载20220620更新替换大包中同名exe):
    20220408大包链接:夸克网盘分享 提取码:hJeS
    20220620更新链接:夸克网盘分享 提取码:KgVz
    硬字幕提取工具配套APP(SubtitleEdit3.6.5内含tesseract5.01聊胜于无、VSF5.5、Snipaste)
    链接:夸克网盘分享 提取码:9BNA
    2022.06.20更新:
    1、清除一个folder内文件变化后做refresh folder动作会出错的问题(感谢@乂MAN哥乂的测试
    2022.06.06更新:
    1、清除一个大图窗复制到剪贴板失败的问题
    2022.05.15更新:
    1、优化tr遇到特殊图片识别exception终止识别进度的问题,现在遇到这种情况会标记为空,跳过继续识别进度
    2、删除合并标记框,线宽改小了一些
    2022.04.29更新:(感谢@乂MAN哥乂的建议和测试
    1、校对窗文本框增加了右键菜单,可以添加<i></i> 、{\an1}等srt、ass文件控制标记
    2、清除了一些bug
    2022.04.24更新:(感谢@乂MAN哥乂的建议和测试
    1、清除一个空图片标记的bug(未识别过的图片也误标记了)
    2022.04.22更新:(感谢@乂MAN哥乂的建议和测试
    1、字体设置新增支持粗体、斜体、下划线、删除线
    2、清除一个空图片标记的bug,工具关闭后再进入,空标记不会显示
    3、修复导入srt时间过长导致工具挂起无反应的问题
    2022.04.10更新:(感谢@乂MAN哥乂的建议和测试
    1、校对窗选择合并图片,原Shift+鼠标左键,改成Ctrl+Shift+鼠标左键
    2、系统设置中,增加了‘键盘和鼠标快捷键列表’,方便查询记忆
    3、校对窗鼠标模拟键盘,增加了‘插入双空格’功能
    2022.04.09-2更新:(感谢@乂MAN哥乂的建议和测试
    1、校对窗Alt+鼠标左键选择合并图片,现改成Shift+鼠标左键
    2022.04.09更新:(感谢@乂MAN哥乂的建议和测试
    1、校对窗删合跨度改为上一页+本页=2页
    2、校对窗Alt+up/down文本框切换,改成Ctrl+up/down
    2022.04.08-2更新:(感谢@乂MAN哥乂的建议和测试
    1、清除图片文件夹为空时,点‘系统设置’、‘返回主界面’会exception的bug.
    2022.04.08更新:(感谢@乂MAN哥乂的建议和测试
    1、校对窗恢复‘导入SRT’功能,在‘生成SRT’鼠标右键菜单中
    2、校对窗新增支持sup/idx+sub图形字幕叠图识别(SubtitleEdit3.6.5打开sup导出后识别,具体看用户手册)
    3、Notepad++换Notepad3,更轻量,I like it...
    4、更新了用户使用手册
    2022.04.05更新:(感谢@乂MAN哥乂的建议和测试
    1、校对窗新增‘查找替换’功能,内置Notepad++
    2、校对窗新增‘字体’设置功能
    3、校对窗新增‘前距ms’显示功能(帮助判断是否应当合并),删除合并范围调整为本页+前后1页,支持跨页合并,合并标记从ctrl+鼠标右键改为alt+鼠标左键,不再跟右键菜单冲突。
    4、改善在文本框内插入或修改句首第一个字符时,整句变成左对齐显示的问题(tkinter的bug)
    5、校对窗鼠标左键、右键增加模拟‘插入回车’功能
    6、清除了删合窗1ms合并提示未正常提示的问题,现在都能正常提示
    7、消除了字号调整时窗体晃动的问题
    8、优化了百度ocr服务器不返回死等的问题
    9、优化了讯飞ocr网络容易断的问题
    10、大图、截图窗布局调整,增加了‘图靠上’显示功能,并清除了一些bug
    11、清除了其他一些bug,更新了用户使用手册,版本号更新到9.0

    8.0 最新版(64bit)下载地址:
    不支持离线OCR版本(20220314更新):
    提取码:2021
    支持离线OCR版本(体积较大):
    链接:https://pan.baidu.com/s/1c1BW0GLI7XZDOhPedd2vVw (先下载这个11.05大包)
    链接:https://pan.baidu.com/s/1bfFcRCyFjPpJ-8TynlbQYg(再下载这个2022.03.14 更新,替换大包中同名exe)
    提取码:2021
    2022.03.14更新:
    1、清除一个.png文件显示为全黑的问题,当png文件带alpha通道会导致
    2022.03.09更新:
    1、系统设置增加“识别为单行”选项,专门配合百度高精度OCR引擎返回不带坐标,若视频中字幕为单行,则用百度高精度时,应当勾选之(具体原因看用户使用手册)
    2、校对窗新增支持合并功能,ctrl+鼠标右键选中去选中图片(而删合窗是鼠标右键选中去选中图片),并增加了“删合”按钮。如在校对过程中发现上一步删合不彻底有遗漏(经常遇到),满足在校对窗中做简单的删合操作,不用返回删合窗中。
    3、校对窗新增鼠标右键模拟功能(系统设置中设置):“插入空格”、“Backspace按键”、“Delete按键”,可告别手忙脚乱,提高校对速度。
    4、删合窗新增当前点击图片号显示,方便查对应图片文件
    5、清除一个有道OCR返回结果错位的bug
    2022.02.15更新:
    1、清除一个paddle离线OCR日语不工作的bug(升级paddle代码时新引入的)
    2021.12.20更新:
    1、清除一个校对窗文本框只有一个字符时左侧添加字符会加到右侧的bug。
    2、支持了“语音提词”和本工具同时运行。
    2021.12.05更新:
    1、校对窗可Alt + 上下、PgUpPgDn,键盘切换文本框编辑,适合不用鼠标纯用键盘的用户。
    2、删合窗合并提示ms数可记忆
    2021.11.05更新:
    1、清除tr、easy离线引擎在中文安装目录下不能工作的bug。
    2021.11.02更新:
    1、新增离线条码扫描引擎(PC须已安装java才能使用此功能)。
    2、修复相机打开速度慢的问题。
    2021.11.01更新:
    1、优化了软件架构,优化了图形性能(打包增加了cv2和numpy,因此体积变大了)。
    2、增加了检测框功能,可随时开启关闭,方便判断OCR检测识别准确率。
    3、校对窗文本框每一行可设置字体大小,可设置左对齐,可依图校对更方便。
    4、用百度手写替换了原来的百度低精度,讯飞OCR增加了3种新引擎,包括手写识别。
    5、增加了拍照识别功能,可用摄像头拍实物做识别。
    6、支持ctrl+鼠标滚轮做图片缩放。窗体可记忆最大化(tkinter是不是很烦?)


    2021.10.17更新:
    1、修复7.0版一个校对窗缩放模糊的问题,请用新的exe替换原来的exe。
    2、优化了离线ocr


    2021.10.10更新:
    1、修复7.0版一个校对窗PgUp、PgDn导致翻页而文本框操作中断的问题,请用新的exe替换原来的exe。
    2021.10.08更新:
    1、修复7.0版一个VSF运行后进入‘删合窗’可能崩溃的问题,请用新的exe替换原来的exe。
    2021.10.05更新:
    1、新增3个离线OCR引擎,需要离线支持请下载离线版本(体积较大)。
    2、新增OCR识别过程自动标注空字幕图片功能,快来体验吧。
    3、新增ctrl+鼠标左键,标注图片,支持所有窗口标注操作。
    4、校对窗鼠标一键插入空格,统一为一键插入,不需两次按键。
    5、校对窗新增1~3组图文设置,满足对超大字号的需求。校对窗支持1~7组图文,8~10组太多眼花取消支持。
    6、界面适配了各种屏幕分辨率,老土的tkinter终于像个样了。。。
    7、版本更新到7.0,更新了用户使用手册。

    6.7 最新版(64bit)下载地址:
    1、优化了界面、增加了翻页按键、更好地支持全屏,快来体验吧。
    2、主界面、截图窗、校对窗 都有提供三大魔棒:‘增强魔棒’、‘对齐魔棒’、‘字号魔棒’,快来体验吧。
    3、删合窗图片组数设置,由原来的36、44、56 改为 50、75、100、125,由原来的4列改为5列。校对窗图文组数设置,由原来的4、5、6、7、8 改为 4、5、6、7、8、9、10。以便支持2K显示器用户能看得更多,快来体验吧。
    4、版本号更新至6.7,更新了用户使用手册。

    2021.09.16更新:
    1、因程序采用的图形库有局限性,导致同一个程序在不同PC上界面显示不同,因此以前做了好几个界面适配。经过努力克服图形库的局限性,现基本能做到同一个程序在不同PC上都有正常的显示。目前提供的“硬字幕提取工具6.6”支持1080p及以上(2k)分辨率的桌面,运行工具如果界面超出屏幕外,可在桌面空白处--鼠标右键--显示设置--更改文本、应用等项目的大小--改设置为100%,请大家试用反馈
    2、删合窗图片组数设置,由原来的28、36、44改为36、44、56。校对窗图文组数设置,由原来的4、5、6改为4、5、6、7、8。以便支持2K显示器用户能看得更多。
    3、增加了翻页和删除合并音效
    4、版本更新至6.6,更新了用户使用手册

    2021.09.13更新:
    1、修复了进度条长度异常问题

    2021-09-02更新:
    1、允许秘钥拷贝填写误多输入空格
    另:拙作 “语音提词1.1”发布了!专注于语音识别和字幕翻译,是听不懂外语啃生肉的利器!黃藥師:语音提词1.0(原创) 采用Spleeter(分离人声)+ 断句分割算法,将视频、音频文件中的语音片段单独提取出来,通过讯飞百度ASR语音识别引擎将语音识别为文字,一键生成字幕,同时还集成了单独的字幕翻译工具。

    2021-04-29以来积累更新:
    6.3开放了5个OCR,对比6.2只开放了1个OCR
    因近期百度免费额度政策调整,导致很多新用户额度不够用,故开放5个OCR,不够用的朋友可以实名申请最多5个OCR秘钥填入,从而提供5倍于单个账号的免费额度。如果还不够用,请购买OCR服务商的额度。
    6.5版新增“鼠标左键一键定位+同时插入空格”功能,校对窗中文本框只须按一下鼠标左键就能插入一个空格,对于百度高精度这种文字识别率很高,但是空格不能识别,需要补漏空格的校对工作,变得更轻松了。对比6.3及以前版本支持“鼠标左键定位+鼠标右键插入空格”,须按两下鼠标才能插入一个空格(继续支持)。具体请看6.5版用户使用手册 - 校对窗章节。

    2021-04-29更新:
    1、去掉字幕字体像素大小的限制,以适应大字体或4K视频

    2021-04-29更新:
    1、删合窗增加“合并提示”功能,可根据图片间隔ms数标记哪些图片可能可以合并(VSF出来的轴有些挨得很近,设置成1ms就可以发现一些可能须要合并的图片(谢谢@Chris Chris 建议
    2、更新了使用手册
    3、清除一些新引入的bug(谢谢@Chris Chris 提醒


    2021-04-25更新:
    https://ai.baidu.com/support/news?action=detail&id=2390
    百度公司免费额度政策将调整(500每日->1000每月,市场推广期结束了撒),如果没有实名认证的账号,快去做:实名认证并识别一下(调用一次即可),做过的账号将维持原免费额度不变。
    1、更新了设置界面
    2、清除一个浏览空目录会出错的bug(谢谢@CHAO1356提醒
    3、更新了用户使用手册

    2021-04-24更新:
    1、截图、大图识别窗,增加了缩进、行距设置slider,可以由用户自己设置输出的排版
    2、新增支持32bit系统
    3、新增支持OCR识别后返回删合窗,做删合操作(谢谢@xqyd 提醒

    2021-04-21更新:
    1、清除讯飞OCR一个bug

    2021-04-19更新:
    1、清除一个校对窗删除图片时,如光标在其他文本框中,会连带delete一个字符的bug(谢谢@xqyd 提醒
    2、清除删合窗多选不正常的bug(谢谢@xqyd 提醒
    3、优化了删合窗翻页响应,更迅速
    4、清除删合窗一个翻页bug

    6.2版本对比6.1版本的提升,包括:
    1、重写了删合窗,增加了动画滚动体验(python用tkinter能做到的极限了),去掉了翻列设置,现在滚动一下步进3列(滚多少列都可能觉得眼花,密集阵无法避免,不喜欢动画可以关闭动画,界面上有开关)。
    2、删合窗,合并操作增加了组间分隔标记(Ctrl+鼠标右键),爱心保留标记改为鼠标右键双击,更加方便(谢谢@xqyd  提醒
    3、删合动作,程序改为先合,再删,不会因为先删导致本来隔着删的两组合,因为删而可能变成挨在一起,变成一组合(除bug)。
    4、文本输入支持undo(ctrl+z)、redo(ctrl+y)
    5、更新了6.2使用手册


    2021-04-13更新:
    1、在@shadowxiao 小姐姐的帮助下,调了界面参数,于是这个工具软件终于有了正常的界面了!它再也不是一个徒有内涵、没有外表的使唤了!再次感谢!以后更新版本都会有两个进度条长度版本exe,功能完全一样。如果其中一个界面显示长度不对,就用另外一个
    2、删合窗组数调整为 28、36、44,原来的56界面太高,完全超出了屏幕。
    3、删合窗,用户可以选择合并时保留哪张图片。
    4、调教截图窗缩进、行距等参数,识别结果更接近大图真实排版。


    2021-04-12更新:
    主要是增加了讯飞OCR,记住要选‘文字识别-- 印刷文字识别(多语种)’,服务接口认证信息为三项:APPID、APISecret、APIKey,其他三种包括手写识别,对空格识别率都不高,只有这种高。虽然讯飞文字识别率没有百度高(毕竟讯飞语音识别才是强项),但是胜在空格识别率高很多,同时0元购送10W次(没错是100000),不用叠图都用不完(建议不要叠了,讯飞的文字识别率不太高。。。)。如果发现讯飞对文字识别率不高,可以开启增强魔棒,并将对比度设为99,算是一种弥补吧,后期再用SubtitleEdit、Aegisub做错字替换。
    同时改进了删合窗,使用更方便了。。。

    6.1版本对比6.0版本的提升,包括:
    1、增加讯飞OCR,目前空格识别率最高(实测讯飞93%,有道80%,百度G 65%,百度A 0%)
    2、删空窗改为删合窗,增加了合并功能,
    布局由3列改为4列,增加左右键浏览翻页,增加了翻列(滚动一下步进一列)
    原页内删除合并操作继续支持,同时删除合并选择标记翻页不会丢失,所有页标记完最后可做一次总体删除合并,不用每页单独操作(感谢@xqyd 的建议
    3、重新布局截图窗,改进使用体验,大图识别、截图识别,以后都到这里来做。
    4、增加更多告警错误信息打印,出问题时用户不再‘一头雾水’
    5、更新了6.1使用手册


    2021-04-04更新:
    1、增加‘删空窗’,用于清理空字幕图片。(合并功能?技术上可实现,但是怎么知道两个同样的字幕一定就是没有去重的呢?例如‘啊’‘啊’‘啊’(嗯!有开车嫌疑)可能是重复的,也可能是正常的,扔到SubtileEdit或Aegisub中借助时间轴和波形来判断不更好吗?好吧,加上了。。。)
    2、将‘删空窗’、‘校对窗’移到主界面上,不需要来回切换。
    3、更新了6.0使用手册

    2021-04-02更新:
    1、优化了校对窗的使用体验,输入法输入时不用担心鼠标指针不在文本框中了(谢谢@xqyd  @394730122 提醒
    2、增加了校对窗组数设置,以适应不同分辨率的屏幕。
    3、更新了使用手册

    2021-03-29更新:
    修复了操蛋的百度OCR在纯英文字幕且较模糊选中英混合语言模式容易叠图错位-间隔标记丢失的问题,导致小概率叠图识别失败,过后程序会自动采用单图识别做补识别!而搜狗有道OCR则完全没有这种问题。。。这种情况下百度如改用半叠则很难出现问题。。。这种极限情况下的改进,让程序更加Robust了。。。
    结论:
    虽然能补识别,还是建议纯英文字幕采用半叠或不叠,仍旧选中英混合语言模式百度语言英语识别纯英文字幕会在标点前添加空格,紧接下来的断句空格会丢失,这是个烦人的bug!中英混合语言模式却没有这个bug!晕。。。看来百度把主要精力放在中英混合这个模型上了,总之大家批量识别前多做试验,选自己满意的设置吧,国产OCR对英语和拉丁语系的支持肯定没有中文强,这是必然的。实际测试纯英文字幕识别率:搜狗>有道>百度
    感慨:
    同样是检测和识别,不同厂家的机器学习模型在某些方面表现差别挺大的,就好像小孩学习,给他灌输的知识不同,灌输的方式不同,开悟得就不同,不仅要喂巨量数据以便找到规律,还要防止过拟合训练出怪癖,深度学习虽然模式简单,却不是单单有深度就可以的,挺考验科研人员的。。。


    使用过程中有任何问题,请先阅读用户使用手册,如果觉得可能是bug,请在这里留言,作者会一一答复,
    如果您有好的建议,非常恳请您不吝提出来,一起探讨,可行的话会做进去,感谢您的支持!


    另:工具目前支持百度搜狗有道讯飞OCR,一直想集成更多可用的OCR,
    第一梯队:
    百度搜狗有道讯飞,已集成。
    google云双币信用卡注册都过不了,没法试呢。
    腾讯云、腾讯优图(将并入腾讯云),高精度版识别率还行,但是有两大障碍导致不想集成:1、价格太高(280RMB/千次,是其他厂家的十倍)2、申请公有云账号审批等待长达三周以上(我4月1号申请,25号通过)。跟百度没法比,百度的OCR服务器据说已经空闲得用来识别每一张贴吧图片。
    第二梯队:
    包括商用的德国OCR.Space、京东云、华为云、阿里云、好未来、薪火,实际测试过效果(主要是识别率,特别是繁体)都不太行。
    第三梯队:
    几种开源OCR例如:Tesseract OCR、EasyOCR、PaddleOCR、PaddleHub、chineseocr_lite, 离能用(主要是识别率和速度)还有较大距离。

    如果大家有听说过能用的OCR,请告知,能用的都会集成进来。
    看来AI还是中美引领全球的,生在中华家也挺不错呢。。。

    免责声明:
    本工具仅供个人使用,为业余提取字幕的朋友提供方便,不可用于商业目的,不可侵犯他人知识产权。
    同时,作者建议有长期大量需求的用户,请购买OCR服务商的额度,支持国家高科技发展。

    作者并非百度广告代言人,不过目前百度有新用户1元购1W次网络图片文字识别(跟高精度差不多)优惠活动,忍不住要推荐给大家:
    https://cloud.baidu.com/campaign/2022ocr/index.html?track=4fce6eb81bf89bbf0191866439e9cd65bc52e6bbaa0b7628

    防走失链接:https://www.zhihu.com/people/huang-yao-shi-91-46/posts









    评分

    参与人数 24活跃度 +45328 收起 理由
    Yukarubih + 19200 很给力!
    RSEtW + 666 很给力!
    Sittymin + 3200 很给力!
    suworm + 666 很给力!
    qingyukongming + 200 很给力!
    misa + 1600 很给力!
    Anime假粉 + 280
    乂MAN哥乂 + 800 很給力!
    铁皮厚厚 + 6400 很给力!
    lilyblessing + 100 很给力!
    Legebriand + 400 很给力!
    Visionary + 800 很给力!
    _JiuGuang_ + 200 赞一个!
    Takasuzu + 800 很给力!
    某某人 + 80 很给力!
    xqyd + 400 很给力! 堪称完美了,是我见过最好的字幕提.
    paul + 1600 很给力!
    jiheidemifan + 666 很给力!
    CHAO1356 + 50 很给力!
    pasanonic + 200 很给力!

    查看全部评分

    回复

    使用道具 举报

  • TA的每日心情
    开心
    2023-12-25 07:53
  • 签到天数: 34 天

    [LV.5]常住居民I

    7

    主题

    127

    回帖

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    8044
    fuyouquan 发表于 2021-3-3 22:19:58 | 显示全部楼层
    还能断句加空格,是根据videosubfinder截图断的还是根据语音断的?我之前用https://bbs.acgrip.com/forum.php ... ight=videosubfinder,思路和工具都跟这个差不多,但前些日子抄的几集动画的字幕,本身空格很多,只能后期一个个补;然后有一些又是句子其实是前后间隔很长的,但为了句子的流畅合在一句里。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2021-6-1 15:58
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    1

    主题

    209

    回帖

    0

    VC币

    金牌会员

    Rank: 6Rank: 6

    积分
    48040
    hx168  楼主| 发表于 2021-3-3 22:33:39 | 显示全部楼层
    fuyouquan 发表于 2021-3-3 22:19
    还能断句加空格,是根据videosubfinder截图断的还是根据语音断的?我之前用https://bbs.acgrip.com/forum.ph ...

    是利用百度实现的,支持空格重现,特别是字幕清晰工整的情况下,重现效果较好
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2023-12-25 07:53
  • 签到天数: 34 天

    [LV.5]常住居民I

    7

    主题

    127

    回帖

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    8044
    fuyouquan 发表于 2021-3-3 22:44:27 | 显示全部楼层
    本帖最后由 fuyouquan 于 2021-3-4 11:45 编辑

    那还有,像TVB的字幕,如图
    我记得百度识图对问号啊、逗号啊都是识别成英文的,
    那TVB这种,它也是用英文标点,然后后面我不确定是不是补了一个半角空格,但要是没有这个空格的间距就会不明显,像这种空格能补上吗?
    但这个问题绝对不大,有标点的话再在Subtitle edit或aegisub里批量替换还不简单
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2023-12-25 07:53
  • 签到天数: 34 天

    [LV.5]常住居民I

    7

    主题

    127

    回帖

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    8044
    fuyouquan 发表于 2021-3-3 22:44:48 | 显示全部楼层
    那还有,像TVB的字幕,如图
    我记得百度识图对问号啊、逗号啊都是识别成英文的,
    那TVB这种,它也是用英文标点,然后后面我不确定是不是补了一个半角空格,但要是没有这个空格的间距就会不明显,像这种空格能补上吗?
    但这个问题绝对不大,有标点的话再在Subtitle editr或aegisub里批量替换还不简单
    回复

    使用道具 举报

    该用户从未签到

    1

    主题

    24

    回帖

    0

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    241967
    yjyz1011 发表于 2021-3-3 23:07:48 | 显示全部楼层
    好用,感觉文字逐行校准功能在这个软件这里做更好。
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2021-6-1 15:58
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    1

    主题

    209

    回帖

    0

    VC币

    金牌会员

    Rank: 6Rank: 6

    积分
    48040
    hx168  楼主| 发表于 2021-3-3 23:09:11 | 显示全部楼层
    fuyouquan 发表于 2021-3-3 22:44
    那还有,像TVB的字幕,如图
    我记得百度识图对问号啊、逗号啊都是识别成英文的,
    那TVB这种,它也是用英文标 ...

    发的图片看不到你可以下载运行试试看有没你说的这种问题
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2021-6-1 15:58
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    1

    主题

    209

    回帖

    0

    VC币

    金牌会员

    Rank: 6Rank: 6

    积分
    48040
    hx168  楼主| 发表于 2021-3-3 23:10:39 | 显示全部楼层
    yjyz1011 发表于 2021-3-3 23:07
    好用,感觉文字逐行校准功能在这个软件这里做更好。

    有人喜欢就好。
    请多反馈意见,谢谢
    回复

    使用道具 举报

  • TA的每日心情
    开心
    2021-6-1 15:58
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    1

    主题

    209

    回帖

    0

    VC币

    金牌会员

    Rank: 6Rank: 6

    积分
    48040
    hx168  楼主| 发表于 2021-3-3 23:17:56 | 显示全部楼层
    yjyz1011 发表于 2021-3-3 23:07
    好用,感觉文字逐行校准功能在这个软件这里做更好。

    如果VSF不漏轴,的确不需要subtitleEdit做校对,就怕有漏
    回复

    使用道具 举报

    该用户从未签到

    1

    主题

    24

    回帖

    0

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    241967
    yjyz1011 发表于 2021-3-3 23:33:48 | 显示全部楼层
    hx168 发表于 2021-3-3 23:17
    如果VSF不漏轴,的确不需要subtitleEdit做校对,就怕有漏

    不是漏轴的问题,主要问题是百度OCR不是100准确的,每行文字其实都需要人工核对,这个软件没有人工核对修改,保存的功能,不太方便。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表