Chrysoberyl 发表于 2022-2-3 10:28:19

又一个硬字幕提取器

本帖最后由 Chrysoberyl 于 2022-2-3 23:48 编辑

最近从某论坛看到一个新的硬字幕提取器,采用了AI模型,无需第三方API,直接本地识别。试用了一下感觉速度和正确率都不错,最大的问题是快速模式丢字幕,特别是那种两三个字的字幕,很容易丢,需要后期校对;如果用精确模式又慢到令人发指。折腾了一下命令行,似乎参数改了没发现有什么区别,可能是姿势不对没有生效(https://camo.githubusercontent.com/bdf12b0cb63cfb809d0393d9b930005564eede00ff28fe379837275c30cae6b6/68747470733a2f2f7a332e617831782e636f6d2f323032312f30342f30392f634e724131412e706e67
个人测试是300-400条字幕里会丢10-20条,当然和字幕长度也有关系。错字不多,校对时很轻松,找漏掉的字幕很痛苦。
Github指路:video-subtitle-extractor (https://github.com/YaoFANGUK/video-subtitle-extractor)

视频教程(https://www.bilibili.com/video/bv11L4y1Y7Tj)
此项目有GUI傻瓜版,感觉很有前途,可以插个眼,解决丢字幕的问题之后就相当完美了。总之多一个工具还是不错的,推荐给大家。


skylimiter 发表于 2022-2-3 11:56:37

本帖最后由 skylimiter 于 2022-2-3 13:01 编辑

哇 居然不用第三方api
体积上面也才300多MB
晚些试试看

===编辑1
精准模式真的很慢
但是挂着让他跑
就跑了接近一小时

===编辑2https://ae05.alicdn.com/kf/H34e1064d38b94ff9a2210078dd1c15597.png
有看到srt档
但还显示处理中...
已经处理十分多钟了

hdg007 发表于 2022-2-3 13:53:19

能识别繁体字吗,大兄弟

Chrysoberyl 发表于 2022-2-3 23:48:11

hdg007 发表于 2022-2-3 13:53
能识别繁体字吗,大兄弟

可以的摘自Github项目页:

[*]多语言:支持中文/英文、繁体中文、日语、韩语、法语、德语、俄语、西班牙语、葡萄牙语、意大利语字幕的提取

echoli08 发表于 2022-2-4 08:12:04

能識別繁體的話...
找天來試試重新提取一下秀逗泰山的字幕...

skylimiter 发表于 2022-2-4 13:54:58

整体来说简体繁体使用精准模式

精准識别度很高

但是相对的 花费时间挺长,也是目前我认为的缺点。
可能闲暇时会挂着让他跑,正式使用时我可能不考虑使用这款...

后面人工校对,基本上轻松很多,还是有漏,段落重复,时间轴错误的状况

我环境是win11 打开exe过程以及执行过程中挺卡顿的。。。。不知道是不是个例?

Chrysoberyl 发表于 2022-2-4 13:59:26

skylimiter 发表于 2022-2-4 13:54
整体来说简体繁体使用精准模式

精准識别度很高


如果确定要人工精校的话,不如直接用快速模式,23分的片子也就几分钟的事,省下的时间足够人工看一遍校对了。
如果加上一些奇技淫巧的话,甚至可以进一步降低漏字幕的情况,比如一边校对一边看Aegisub里的音轨,比如如果两条字幕之间明显有人声部分可以直接检查一下,覆盖不全的可以看看是不是时间轴有点问题之类。个人体验是加上这些技巧之后20分钟,300-400条字幕的片子大概可以控制在丢10条字幕左右。

wzdc 发表于 2024-7-13 00:09:09

本帖最后由 wzdc 于 2024-7-13 00:13 编辑

精准模式,两分钟视频耗时15分钟... 字幕识别的倒是没啥问题就是有些字幕的时轴对不上

Chrysoberyl 发表于 2024-7-16 12:45:58

wzdc 发表于 2024-7-13 00:09
精准模式,两分钟视频耗时15分钟... 字幕识别的倒是没啥问题就是有些字幕的时轴对不上 ...

不建议用精准模式,实际上准确度并无明显提升,时间倒是长了不少,而且有时会引入时间轴问题。只推荐用快速模式,反正后期校对是少不了的,还不如搞快点
页: [1]
查看完整版本: 又一个硬字幕提取器