找回密码
 立即注册
楼主: yuefeima

【Videosubfinder +百度ocr接口】提取硬字幕,彻底解放生产力

  • TA的每日心情
    开心
    2020-12-14 09:33
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    25

    回帖

    0

    VC币

    荣誉会员

    Rank: 14Rank: 14Rank: 14Rank: 14

    积分
    98869
    yuefeima  楼主| 发表于 2020-12-2 13:54:02 | 显示全部楼层
    岁月留声 发表于 2020-12-2 13:11
    两个软件我都比较熟悉了,只能说各有优缺点,esr少漏对白,但是去除图片杂质这一步工作量相当大,累死人,v ...

    用百度ocr直接识别RGBImages图片,而不是用VSF处理过的TXTImages图片,可以避免你说的会漏轴的情况。关于百度ocr会漏字的情况,只能说不可避免,但是漏的很少,你用任何方式ocr都无法达到100%准确,后期校对是跑不了的。
    校对也可以偷懒,用aegisub对字幕进行还原,和原字幕进行比较,可以快速找出出错的字幕,有兴趣可以下来交流交流
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2021-3-13 13:55
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    24

    回帖

    0

    VC币

    注册会员

    Rank: 2

    积分
    1166
    岁月留声 发表于 2020-12-2 14:09:52 | 显示全部楼层
    yuefeima 发表于 2020-12-2 13:54
    用百度ocr直接识别RGBImages图片,而不是用VSF处理过的TXTImages图片,可以避免你说的会漏轴的情况。关于 ...

    我是说RGBImages图片都有漏,TXTImages图片漏的我有办法快速筛选出来,另外,我对你说的百度直接OCR  RGBImages图片非常感兴趣,百度不是只能识别二值化的图片吗?直接识别RGBImages怎么操作,效果如何呢?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-12-14 09:33
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    25

    回帖

    0

    VC币

    荣誉会员

    Rank: 14Rank: 14Rank: 14Rank: 14

    积分
    98869
    yuefeima  楼主| 发表于 2020-12-2 14:32:52 | 显示全部楼层
    岁月留声 发表于 2020-12-2 14:09
    我是说RGBImages图片都有漏,TXTImages图片漏的我有办法快速筛选出来,另外,我对你说的百度直接OCR  RGBI ...

    随着vsf版本的更新,RGB图片漏轴的情况已经越来越少了,百度都可以识别啊,不需要二值化。我那个程序就是直接识别RGB图片,效果还是很不错的。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2021-3-13 13:55
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    24

    回帖

    0

    VC币

    注册会员

    Rank: 2

    积分
    1166
    岁月留声 发表于 2020-12-2 14:58:55 | 显示全部楼层
    本帖最后由 岁月留声 于 2020-12-2 15:00 编辑
    yuefeima 发表于 2020-12-2 14:32
    随着vsf版本的更新,RGB图片漏轴的情况已经越来越少了,百度都可以识别啊,不需要二值化。我那个程序就是 ...

    你那个程序双行字幕的图片OCR后会自动合成一行吗?如果不会,那导入不了时间轴SRT文件,因为行数不一样,另外我发现腾讯OCR的识别率比百度普通识别好很多,而且基本不会漏字,就是不知道怎么调用,我是用Python的
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-12-14 09:33
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    25

    回帖

    0

    VC币

    荣誉会员

    Rank: 14Rank: 14Rank: 14Rank: 14

    积分
    98869
    yuefeima  楼主| 发表于 2020-12-2 15:06:43 | 显示全部楼层
    岁月留声 发表于 2020-12-2 14:58
    你那个程序双行字幕的图片OCR后会自动合成一行吗?如果不会,那导入不了时间轴SRT文件,因为行数不一样, ...

    我用了分隔符来确保时间轴不会出错,而且我是调用的百度高精度识别,每天500次,比腾讯的要大方太多了。可以加我qq详聊(1156333484)
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    1

    主题

    29

    回帖

    0

    VC币

    新手上路

    Rank: 1

    积分
    376
    sun128764 发表于 2020-12-2 19:23:21 | 显示全部楼层
    大佬有想法开源嘛,或者添加一下华为云支持?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-12-14 09:33
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    25

    回帖

    0

    VC币

    荣誉会员

    Rank: 14Rank: 14Rank: 14Rank: 14

    积分
    98869
    yuefeima  楼主| 发表于 2020-12-2 20:43:02 | 显示全部楼层
    sun128764 发表于 2020-12-2 19:23
    大佬有想法开源嘛,或者添加一下华为云支持?

    已附上源代码,有兴趣可自行查看。其他云服务暂时不考虑。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    难过
    2020-12-8 13:13
  • 签到天数: 2 天

    [LV.1]初来乍到

    0

    主题

    17

    回帖

    0

    VC币

    新手上路

    Rank: 1

    积分
    189
    hhbluestar 发表于 2020-12-7 14:22:48 | 显示全部楼层
    竟然还有额度,醉了啊..
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2020-12-14 09:33
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    1

    主题

    25

    回帖

    0

    VC币

    荣誉会员

    Rank: 14Rank: 14Rank: 14Rank: 14

    积分
    98869
    yuefeima  楼主| 发表于 2020-12-7 15:35:55 | 显示全部楼层
    hhbluestar 发表于 2020-12-7 14:22
    竟然还有额度,醉了啊..

    我这个采用叠图识别,虽然一天的额度只有500次,但是一天识别几部电影的量是没问题的,如果是重度使用,建议多申请几个账号
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    难过
    2020-12-8 13:13
  • 签到天数: 2 天

    [LV.1]初来乍到

    0

    主题

    17

    回帖

    0

    VC币

    新手上路

    Rank: 1

    积分
    189
    hhbluestar 发表于 2020-12-7 15:58:06 | 显示全部楼层
    yuefeima 发表于 2020-12-7 15:35
    我这个采用叠图识别,虽然一天的额度只有500次,但是一天识别几部电影的量是没问题的,如果是重度使用, ...

    我一部都没识别完啊.......

    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表