硬字幕转制外挂字幕利器(改三)
本帖最后由 kavenliang 于 2020-6-3 18:03 编辑Caption OCR Tool
隔壁帖子链接:NobNeo:为了更便捷的手抄字幕, 我搞了一个新玩具
滤镜模块解释:caption_ocr_tool/docs/MODULE_ZH_CN.MD
入门视频演示:【COCR】动漫收藏找不到外挂字幕?来试试手抄
以下为旧内容,仅供参考
首先回答2个问题:
[*]手抄党是什么?——用某种方法把内嵌在视频画面上的字幕变成ASS外挂字幕的抖M,该方法通常是指“手打”。
[*]esrXP是什么?——是个很久都没更新过的古老小工具,用途就是把画面上的字幕部分变成一张张图片,或者输出ssa。
[*]为什么会有这么个帖子?——之前遇到esrXP打开视频没反应也没预览等情况,找遍网络都没有详细的解决办法,在2333的提示下折腾了一下搞定了,第一层是交代如何解决这个问题的。关于这货怎么用怎么调参数...怎么OCR,看后面几楼。
需要准备的东西:
[*]WMP——全称Windows Media Player
[*]LAV Filters——32bit/x86的是必须的。
[*]Codec Tweak Tool——调整系统解码器托管的一个小工具,用完可弃
[*]
[*]Onenote 2016/ABBYY pro
[*]Notepad++
实行步骤:
[*]把WMP启用(据我所知Windows10下好像是默认不启用的):「Win+X」——「F」——「启用或关闭Windows功能」——「媒体功能」——[√]「Windows Media Player」——「确定」
[*]如果你系统只安装了64bit的LAV Filters那么就再安装个32Bit的
[*]用Codec Tweak Tool把默认的分离/解码任务托管到LAV Filters,esrXP好像只能用到32bit,我是只勾选MP4、MKV(分离器)和H264、HEVC(解码器)的,你可以不按照我这里设置(一般硬字幕源片源都是MP4了),这个设置在系统大版本更新的时候可能会被重置,你再设置一遍就好。
[*]现在应该可以预览了,调好参数(可以看楼下)(这个很重要,结果糊不糊,靠这里了,调的时候多预览一下,随机多预览下多几个画面,特别是画面与字体色度比较接近的地方),调好之后,跑一下看看。
本帖最后由 kavenliang 于 2016-8-5 17:05 编辑
说下几个重要的参数怎么调
[*]区域——字幕截取范围上下刚好贴住字幕就好,左右没多大要求;[√]「完整宽度」这个一般不勾选,勾选也可以,因为有的视频在左下角右下角会出现插入曲的歌词什么的,勾选的话可能会跑出相当一部分重复图像,后面可能需要花时间修正文本,不影响最终效果,你可以判断下当前的截取范围够不够宽,能截取到最长的对白。
[*]过滤器设置——[√]启动过滤器;[]额外颜色;颜色(不建议选「颜色及边线」因为这样一来,容错性保证不了);字幕颜色一般就是字体的主颜色(白色)了;边线颜色就是边框颜色。
[*]进阶设置——个人是只勾选最后阶段,主要调「最后阶段」的「色度差距」和「RGB差距」效果很明显,下面四个可以看情况微调,效果较上面两个不明显。
[*]后处理——[√]移除只有一像素的点;[√]移除只有一像素的线;[√]移除区块大过「?×?」像素(在字体本身不被移除的前提下尽可能小,也可以不开);[√]移除接触边缘的区块(一般都可以选,字幕组一般都会预留相当的左右边距);[]移除通过中央的区块(不能选,因为大部分字幕都是居中的,选了就没有了)
关于第2点,强烈建议参考22楼的方法。
[*]然后就可以开跑了
本帖最后由 kavenliang 于 2016-8-5 17:28 编辑
跑完整个视频后,说一下整理的流程。
[*]清理错误,无关的图像,重复的保留其中一个最清晰的,重复的图像(文本内容)建议记录一下,这些重复的后面需要修时间轴。善用鼠标右键和左键进行复选,选中的行会被暂时隐藏,但不会被删除,如果你想删除,你可以看看上面那三个按钮。
[*]清理完后,「文件」——「另存为」——直接出(Sub Substation Alpha)SSA字幕,这一步对整个手抄过程来说是最具价值的一步,出轴。
[*]导出图像,「文件」——「保存OCR影像」,我OCR是用的Onenote,所以一图流。
[*]Onenote添加图像——「复制图像中的文本」——「粘贴」到Notepad++之类的文本处理器,去空格标点(这个如果会正则表达式替换会方便很多,我只会普通替换),一行一行对着图像多删缺补(一行一行要对应,这个很重要,有的行只有一两个字(像“哈哈”“哦”“嗯”之类),所以Onenote会识别不出来),这里我建议你先去Notepad++的「首选项」把「自动完成」关掉,不然会烦死你。
[*]对好行之后,全选复制,打开只有时间轴的SSA,选中第一行,「右击」——「选择性粘贴(ctrl+shift+v)」——「文字」——「确定」。如果你行都对应的话,应该刚刚好会填满,如果没刚好填满的话,挂上原视频,找到从哪一行开始不对应的,从那一行开始复制到末尾,再从正确的行开始「选择性粘贴」,再自己把不对应的那一行该有的内容补上。如此往复。直到所有行都完整匹配,且没有缺漏。(所以我一般每次只复制100行,这样好找错)
[*]关于上部字幕、标注、特效、歌词这些,该手打的还是要手打。我是potplayer用5-10倍速播放原视频(三五分钟就看完了,一边看一边傻笑),看到有这些内容就暂停截图,之后再在字幕里添加上。这些特效字幕什么的我强烈建议你另存为(Advanced Substation Alpha)ASS再添加,因为两种格式支持的特效tag有别。
[*]个人经验之谈:如果你不会对重复单调工作感到乏味恶心的话,那么我建议你每个步骤都把全季度的都做完,再摸下个步骤,这样将大大节省整体时间,因为重复工作的同时你的时间消耗会因为你的熟练度提升而减少;而每集都要从头(mp4)到尾(ass成品)来一遍的模式会让你更加劳累,因为你要来回切换不同的工具和界面并使用与上一步骤不同的操作。具体操作:把esrxp参数调好跑完一集先保存exr文件,再跑下一集保存如此往复完成所有集数后,再逐个打开esr文件清理不要的行保存esr、ssa、导出bmp,如此往复做完全季度,再OCR你的bmp,复制到txt,弄完全季度再批量一次打开全部txt,用(正则)替换所有打开文件的功能,清理一些由于画面不干净而生成的标点符号或者更改错别字,再对照bmp逐个文本逐行校对并保存校对好的txt,校对完全季度后再复制到已经出轴的ssa上面,最后调样式加歌词加注释加次要对白都可以慢慢来。
本帖最后由 darkangel0224 于 2016-7-2 19:14 编辑
简单补充主楼没有详细提及的东西
参考链接:
http://www.darksmurfsub.com/forum/index.php?/topic/4490-hardsubs-extraction-guide/#entry60621
https://sites.google.com/site/cphktool/esrxp/filter-setting
导入视频
这个软件依赖DirectShow解码视频,所以如果无法打开视频,装个诸如K-Lite Codec Mega的解码包基本能解决问题。
但巨硬从瘟7开始搞了Media Foundation的东西,这东西的作用就是不按常理出牌,无视Merit Value,强行关联DirectShow解码链路。所以导致不管你给注册过DirectShow外置解码器多高的优先值,都会被拉去给巨硬的自己的解码器解码。
所以可以开Codec Tweak(K-Lite Codec自带),在MS Codec Tweaks里把巨硬所有32位的解码器全禁用。当然副作用就是如果你要看MMS流视频,大约会解码失败。不过考虑到巨硬的WMV市场占有率,基本也不担心这问题嘛。
另外,也可以导入avisynth的脚本(如果你有装的话avisynth)。
Filter小补
在画面上左键确定选取左上坐标点,右键确定选取右下坐标点。换句话说通过一次左键和一次右键就能选定选区。对选取长按左键不放就是整个拖动选区。
左侧Region控制区里,点击四个数字框中间的长方形,会在选区中出现一条红色中线。这是对双行显示字幕的中分线。
Additional Color
这个选项是用来查看每一步的Filter处理结果的。勾上后,画面会有五种颜色(不一定全会出现),各自代表不同的含义。
红色:图像经由Outline滤镜处理后,被滤去的部分,得到图像A
绿色:被软件判别为非文字,而滤去的部分。这个没有直接调整项,完全靠其他选项抑制。
黑色:图像A经过Pass1滤镜后,被滤去的部分。得到图像B
蓝色:图像B经过Final滤镜后,被滤去的部分。得到图像C
白色:图像C在postprocessing滤镜后,得到的图像结果。也就是最终结果。
Advance / Filter Setting
如果经常做图像处理的话,应该很快就能明白这其实就是个复合滤镜调整。这个对话框打开后,是无法对主区进行选择的。所以一般调整前会勾选上Enable Filter 和 Additional Color查看实时调整结果。
需要知道的背景知识:
HSL:https://en.wikipedia.org/wiki/HSL_and_HSV
RBG:https://en.wikipedia.org/wiki/RGB_color_model
Lum-luminance 亮度, Sat-saturation 饱和度
Hue,Lum和Sat属HSL,RGB属RGB。各项取值范围
Pixel Compensate
Hue Difference
RGB Difference
Lum, Sat (最小值必定小于最大值)
Outline和Pass1是同组滤镜,如果选Color模式,这俩个是不起作用的。
这个东西调整麻烦的地方在于,几乎没有通吃设定,甚至一个片里不同的片段出来的效果都不同。下面贴两个例子,抛砖引玉。因为这个软件并没有附带帮助文档和操作手册,所以例子中会出现与本文内容冲突的部分,只能请各位自行参悟了。
感謝樓主提供教程
本帖最后由 stevenweng09 于 2015-12-25 15:39 编辑esrXP+OCR真的是不可缺少的工具
感謝樓主提供教程
大多數TVrip都是蛋疼的內嵌很想把字幕都挖出來 ...... TVrip那渣畫質根本不能入眼......
英文都內掛反而容易,中文字幕取得困難呀
本帖最后由 yswysc 于 2022-5-20 13:37 编辑
顶一把。就是在kaven的指示下,我解决了视频载入问题。作为测试,两个人摸索出了一下午,终于完成了全部流程。然后我用esrXP+OCR的方法,抄了京吹部的第14集。
顺便欢迎所有愿意制作BD字幕的同学加Q群:⬛⬛⬛⬛⬛
欢迎抖M苦力,欢迎各种翻译和技术人员。
想问下楼主,不考虑版本的更新问题,esrXP读不出mp4格式的片怎么解决? snorh 发表于 2016-4-6 19:42
想问下楼主,不考虑版本的更新问题,esrXP读不出mp4格式的片怎么解决?
..这个贴就是解决这个问题的 kavenliang 发表于 2016-4-6 20:07
..这个贴就是解决这个问题的
我按这个贴一步步来,发现lav那个图标没有出现{:7_420:},这是解码失败了吗? snorh 发表于 2016-4-6 20:23
我按这个贴一步步来,发现lav那个图标没有出现,这是解码失败了吗? ...
应该是没有接管,我现在只勾选了decoder h264和h265其他都保持默认了 1:WMP---------全称Windows Media Player 我系统是win7,Windows Media Player是默认打开的吗?我看了下我的是开启的! 2:LAV Filters--------32bit/x86的是必须的。 这个软件从哪里可以下载呢? 3:Codec Tweak Tool---------调整系统解码托管的一个小工具,用完可弃 这个又是从哪里弄来的呢 以上2和3你有附件可供下载,不知怎么找 我刚回覆完毕的时候才发现!原来有链接,不过已晚了!我进去看了下全是英文,用360浏览器翻译,无法翻译,都不知道哪个才是下载链接