spyps 发表于 2025-4-15 00:12:58

机动战士高达 逆袭的夏亚/機動戦士ガンダム 逆襲のシャア/Mobile Suit Gundam: Char`s Counterattack [NEO·QSW 23版字幕手抄] [更新v4版 简日双语]

本帖最后由 spyps 于 2025-4-25 23:06 编辑

片源是字幕组23年的UHD:https://share.dmhy.org/topics/vi ... h_2160P_BD1080.html,相较这个帖子中的手抄版版本有更新:


更新v3,加入字幕组旧版外挂ass中的日文字幕,目前是简日双语。但是字幕样式和硬字幕不同,我不擅长搞这个,希望有人帮忙搞。

更新v4,修正了v3的缺字(两处行首的“一”OCR没识别出来);做了一些额外校对,有些翻译感觉不太对干脆全文做个校对;顺带修了些我看着不顺眼的句子。方法是让gemini pro 2.5逐句比较中文和日文,祂flag翻译不对的句子后抛给我判断要不要改。具体修了哪些请参照附件表格。


====================================================
起因:
我因为跨时之战补了UC高达,CCA好看,爽!可惜我第一遍看的是1080,重看4K发现这个内嵌字幕的片源有字幕时和无字幕时画面亮度会微微改变。毕竟我用的是vision pro(+infuse),估计是设备不支持HDR导致的。外挂字幕没这个问题。HDR这么难搞的玩意儿,真就别内嵌字幕了。

过程:
试用了下Caption OCR Tool,发现漏字幕、OCR效果差、0.0.7无法导出图片。于是让Gemini帮忙写了个Python脚本导出硬字幕截图,一次运行成功。再用abbyy fine reader做OCR,用Excel拼成ASS,替换掉同一字幕组旧版外挂ass文件中的正片部份,保留了旧版ass片尾曲的歌词翻译,最终结果就是附件了。

已知缺点: v3版全部改掉了,不排除有漏网之鱼。
1. 没想到还是漏字幕了,我怀疑是脚本中change_threshold = 1.5太高,可能设成0.5甚至0就不会漏字幕了,毕竟HDR片源偏灰,白色的硬字幕相当好提取,原理上不该有漏字幕的问题。v2版补充了缺失的61行字幕。v1版漏的字幕几乎都是单字字幕,change_threshold=1.5太大必须设为0.1。有一行硬字幕只有一个字符“0”,即使设为0.5也会漏掉。Caption OCR Tool漏字幕应该也是类似的原因。
2. 部份空格缺失。OCR软件的问题,改了一部分但还有很多懒得管。靠大家接力了。 v3版已修正空格问题
3. 没有日文双语,只有中文。旧版外挂ass时轴和现在不完全一样,旧版有的句子切断但是现在是一句,所以没法在excel中直接对齐。懒得弄了靠大家接力。v3版补齐双语字幕

感想:
大语言模型牛逼,我认为是21世纪最伟大的工程实现。希望未来可以直接将视频扔给大模型自动提取硬字幕。

用到的脚本和工具都在下面,需要pip install opencv-python numpy。希望大家能帮忙继续优化字幕。



手抄证明:

提取脚本结果:
已处理 170000 帧, 已保存 3622 张字幕图片, 用时: 4404.46 秒
已处理 170100 帧, 已保存 3622 张字幕图片, 用时: 4406.95 秒
已处理 170200 帧, 已保存 3622 张字幕图片, 用时: 4409.44 秒
已处理 170300 帧, 已保存 3622 张字幕图片, 用时: 4411.88 秒
已处理 170400 帧, 已保存 3622 张字幕图片, 用时: 4414.35 秒
已处理 170500 帧, 已保存 3622 张字幕图片, 用时: 4416.80 秒
已处理 170600 帧, 已保存 3622 张字幕图片, 用时: 4419.22 秒
已处理 170700 帧, 已保存 3622 张字幕图片, 用时: 4421.67 秒
已处理 170800 帧, 已保存 3622 张字幕图片, 用时: 4424.06 秒
已处理 170900 帧, 已保存 3622 张字幕图片, 用时: 4426.44 秒
已处理 171000 帧, 已保存 3622 张字幕图片, 用时: 4428.83 秒
已处理 171100 帧, 已保存 3622 张字幕图片, 用时: 4431.24 秒
已处理 171200 帧, 已保存 3622 张字幕图片, 用时: 4433.66 秒
已处理 171300 帧, 已保存 3622 张字幕图片, 用时: 4436.05 秒
已处理 171400 帧, 已保存 3622 张字幕图片, 用时: 4438.46 秒
已处理 171500 帧, 已保存 3622 张字幕图片, 用时: 4440.91 秒
已处理 171600 帧, 已保存 3622 张字幕图片, 用时: 4443.32 秒
已处理 171700 帧, 已保存 3622 张字幕图片, 用时: 4445.71 秒
已处理 171800 帧, 已保存 3622 张字幕图片, 用时: 4448.07 秒
已处理 171900 帧, 已保存 3622 张字幕图片, 用时: 4450.42 秒
已处理 172000 帧, 已保存 3622 张字幕图片, 用时: 4452.76 秒
已处理 172100 帧, 已保存 3622 张字幕图片, 用时: 4455.10 秒
已处理 172200 帧, 已保存 3622 张字幕图片, 用时: 4457.43 秒
已处理 172300 帧, 已保存 3622 张字幕图片, 用时: 4459.79 秒
已处理 172400 帧, 已保存 3622 张字幕图片, 用时: 4462.14 秒
视频处理完成。

处理完毕!总共处理了 172488 帧。
共保存了 3622 张字幕图片到 extracted_subtitles
总耗时: 4464.19 秒

OCR软件:


Excel转ass,时轴是脚本直接提取的:

a1005747470 发表于 2025-4-15 11:59:37

这个版本的字幕,同时文件里还有一个1080pSDR版,是不是就没有变灰的问题了?

spyps 发表于 2025-4-15 21:02:56

a1005747470 发表于 2025-4-15 11:59
这个版本的字幕,同时文件里还有一个1080pSDR版,是不是就没有变灰的问题了? ...

即使是屏幕不支持HDR,正常支持HDR的播放器播放也不会变灰吧,播放器应该会重新做色彩映射。vp里用infuse观看时有无字幕的亮度差异可能也是色彩重新映射导致的。

HDR变灰的好处就是方便提硬字幕了,SDR肯定是没变灰的问题的。
页: [1]
查看完整版本: 机动战士高达 逆袭的夏亚/機動戦士ガンダム 逆襲のシャア/Mobile Suit Gundam: Char`s Counterattack [NEO·QSW 23版字幕手抄] [更新v4版 简日双语]