amiemie666 发表于 2017-3-12 00:25:59

推荐一款国产免费OCR软件,有需求的可以试试

本帖最后由 amiemie666 于 2017-3-12 00:31 编辑

国产老牌OCR软件,文通TH-OCR免费版
官网下载http://www.wintone.com.cn/a/service/downloads/entry108.aspx
文件大小:108.6MB
免费版的限制,好像是每天有限制页数(100页?)。但单页是没有限制的。
所以我都是把一整条字幕弄成一页tif图片。相当于没什么限制。
(我反正还没达到过上限,所以不知道具体怎么限制的。。。)
---
我的测试对象是简体和繁体中文的蓝光SUP字幕,提取png,合并成一整张图片。
测试了:微软2007MODI引擎(搭配IdxSubOcr),微软OneNote2013,ABBYY12企业版,文通TH-OCR免费版
在白底黑字的情况下,文通TH-OCR免费版的准确度是最高的。虽然abbyy和OneNote也还不错。
---
文通TH-OCR免费版的缺点:
在白底黑字的情况下才能达到最佳效果。否则识别率会受到显著的影响。onenote和abbyy对图片的容忍度高一些。
无法识别空格。(OneNote和abbyy也好像不能识别空格,MODI可以,但MODI的文字识别率是相对最低的)界面有点老土,国产老软件的普遍情况。不过看起来这么low的软件,识别率却那么好,所以我有点惊讶。
---
没测试过硬字幕视频提取出来的那种情况,不知道到时候识别率对比会是神马结果。
==============
在本次使用中,还发现了BDSup2Sub.jar的一些bug和缺点。
比如,bug:即使打开sup时,不勾选那些 分辨率 码率等的转换设置,还是会受影响。
影响一,导出的结果的时间轴可能会有变化。
影响二,把旧sup导出成新SUP的话,分辨率信息会变成DVD的分辨率(此时字幕图形本身还没受影响),但再想从新的sup提取出png图片的话,就会导致图片最宽是720(dvd),超过720宽的会被挤瘦。
---
缺点:直接sup导出png的话,无法调整颜色,导出的字是黑边+白芯+其间的灰色渐进像素。白芯感觉不够粗,负片反色以后,边缘不够鲜明。感觉稍微粗一点能提升一些识别率。
这个bug+缺点,刚好完美地搭配,导致我无法得到我想要的图片。(要么被挤瘦,要么文字边缘不够鲜明)
===
所以我找了个老老的工具SUPread,可以导出我想要的图片(直接黑白,没有过渡),但是导出的图片是全分辨率的(比如单句字幕的图片是1080p的大小,大大一张图,下方一小条字幕)
好在,通过xnview的自动剪裁功能,几秒钟就能批量剪裁掉所有无用的区域。
===
大家用BDSup2Sub.jar的时候,一定要小心。。。我已经不太信任它了。
==============
这帖子全是字,一张图片都没有。。。(想到要写贴子前,那些零碎的文件已经被我删了。。。)
如果看得云里雾里的话。。。等以后遇到这些工具,或者想要做类似的事情的时候,再回来看看就行。。。


fuyouquan 发表于 2019-1-19 23:50:26

为啥我用abbyy完全没有外界传的那么神
页: [1]
查看完整版本: 推荐一款国产免费OCR软件,有需求的可以试试