yww 发表于 2023-7-2 16:10:28

如何使用 Ai 辅助啃生肉

本帖最后由 yww 于 2023-7-15 17:50 编辑

声明:以下内容只适用于和我一样的菜鸟,不适合专业字幕组
--更新--
找到了可以全文翻译的ai, 见下文
下面正文
相比有很多同学和我一样,日语无力,但是从pt/bt 下载的很多资源,除了正片能在互联网上找到字幕之外,像是某些特典,广播剧,评论音轨都是难以找到字幕的。
往往辛辛苦下载的资源到手只能吃灰。
https://s1.ax1x.com/2023/07/02/pCDBWFA.png
但是现在时2023年了,AI 遍地开花,我们何尝不试试用现代科技帮我门解决生肉的难题。
准备工作
WhisperDesktop: github.com/Const-me/Whisper
CharGPT/翻译软件 Chatgpt没有账号也可以试试 Chatgpt 代理
操作系统我使用的 Win10
另外,你必须要准备一张显卡并安装好驱动(显存越大越好,我使用的Tesla P4, 8gb 足够了)
正式开始
首先介绍一下 WhisperDesktop, 这个项目是基于 Whisper.cpp 编写的一个Windows客户端,用来实现语音转文本的听写能力,解决了我们听不懂的问题,客户端的详细说明可以参考github 页面上描述。
使用方法如下, 首先我们需要在release 页面下载最新的客户端,地址: github.com/Const-me/Whisper/releases
https://s1.ax1x.com/2023/07/02/pCDBfJI.png
找到资源(Assert)中的 WhisperDesktop.zip 下载即可。
第一次运行的时候,需要下载一个模型用来识别语言,下载链接: huggingface.co/ggerganov/whisper.cpp(原链接失效了,感谢评论区的同学指正)
这一步根据你显存的大小选择, 选能支持的最大模型就可以.
https://s1.ax1x.com/2023/07/02/pCDBoy8.png
下载好之后,在 Model Path 中,选择下载好,Model Implementation 选择GPU,点击进入下一步。
https://s1.ax1x.com/2023/07/02/pCDBqoj.png
上面的语言,根据音频的自身的语言选择即可,Translate 不要勾选(勾选了会自动翻译成英语)
Transcribe File 选择音频或者视频文件(如果发现不支持,可以先使用FFMpeg 转换成mp3 等文件再试。
Output Format 中选择输出格式,我们是做字幕,所以选择Subrip Subtitle(srt)
Place that File to input folder 勾上之后,会自动将生成的srt 放在视频文件同目录下,你也可以不勾选,自己选择输出位置
一切就绪之后,选择Transcribe 开始听写,听写花费的时间和音频长度成正比
https://s1.ax1x.com/2023/07/02/pCDBjWq.png
听写的字幕软件,时间轴可能不一定完全准确,可以用你喜欢的字幕软件调整时间轴,比如Aegisub,虽然听不懂,但是也可以用断句的时间大概蒙出来。
当然,你也可以直接凑合用。
有了字幕文件之后,那么有两个选择, 第一个是直接给Google Translate 机翻,新建一个word 文件,将字幕贴进去,翻译,再拷贝回来就可以了。
这种方式速度快,勉强也能看懂。不过既然是2023年,我们也有更好的解决方案。
你可以使用 Chatgpt 或者 Chatgpt 代理,其他类似Chatgpt 的工具也可以。
然后给他说
我接下来会输入一个字幕文件,你将它翻译成中文后输出给我,明白了回复OK.
他会回复一个好的。
然后你把字幕文件贴进去,太长了可能需要分段一下。
接着就等他给你翻译,你甚至可以要求他给你翻译的同时保留原文,这样就是双语字幕了。
可能需要稍微调整一下格式。
https://s1.ax1x.com/2023/07/02/pCDDSyT.png
效果:
https://s1.ax1x.com/2023/07/02/pCDDCmF.png

--分割线--
所有工具都不是我开发的,单纯只是一个搬运工,能帮到大家很开心。
AI幻听问题,我也遇到了过,有时候换一个模型就没有,很奇怪,我也不太懂原因。

--全文翻译AI--
找到了一个可以全文翻译的ai, 链接:claude.ai, 需要科学上网,大陆以及香港地区不可使用。
可以直接上传txt文件。
效果如下
https://s1.ax1x.com/2023/07/15/pC5g9yt.png


与中酱 发表于 2023-7-2 23:12:26

虽然嫌麻烦(代理这个对我来说有点难),但是我大受震撼,给大佬点赞了。
确实这解决了不少痛点,尤其很多以前VCB都附带了评论音轨

Lambholl 发表于 2023-7-2 23:49:43

600:00:14,000

yww 发表于 2023-7-3 21:30:39

Lambholl 发表于 2023-7-2 23:49
600:00:14,000

格式自己稍微调整一下即可

yww 发表于 2023-7-3 21:32:18

与中酱 发表于 2023-7-2 23:12
虽然嫌麻烦(代理这个对我来说有点难),但是我大受震撼,给大佬点赞了。
确实这解决了不少痛点,尤其很多 ...

有很多代理网站,不需要注册,google 搜索 chatgpt 代理即可,可能需要科学网络才能访问就是了

与中酱 发表于 2023-7-4 23:37:45

yww 发表于 2023-7-3 21:32
有很多代理网站,不需要注册,google 搜索 chatgpt 代理即可,可能需要科学网络才能访问就是了 ...

是的,关键就是在于这个科学上网,实在是我个人的一个痛点啊,没这个能力,现在需要下VCB种子都是让肉身在外的同学帮我下。

梯子对我来说有点小贵了,使用频率太低了,我万年才有一次访问需求,直接找同学完事
但是楼主的这项技术真的!真的!真的好棒,毕竟有些评论音轨都比正片都有意思,啃不动的有Ai辅助翻译可太香了

孤雨独火 发表于 2023-7-5 00:49:16

本帖最后由 孤雨独火 于 2023-7-5 00:51 编辑

与中酱 发表于 2023-7-4 23:37
是的,关键就是在于这个科学上网,实在是我个人的一个痛点啊,没这个能力,现在需要下VCB种子都是让肉身 ...
你都有磁链了为什么还要人带种子???{:4_93:}




这串数字对应磁链的hash

1362513713 发表于 2023-7-5 04:44:12

截图中识别语音的模型链接404了,贴上新的链接:huggingface.co/ggerganov/whisper.cpp
不用谢我{:4_684:}

默沨 发表于 2023-7-5 10:23:45

本帖最后由 默沨 于 2023-7-5 10:42 编辑

试了试这准确性完全ok

这东西似乎也能用来生成歌词,输出带时间戳的文本可以直接用,试了下foobar2000可以直接识别,musicbee得改下格式

感觉我的cd有救了{:8_706:}

1362513713 发表于 2023-7-5 11:54:02

默沨 发表于 2023-7-5 10:23
试了试这准确性完全ok

这东西似乎也能用来生成歌词,输出带时间戳的文本可以直接用,试了下foobar2000可以 ...

srt泛用性挺高的,甚至能导进pr里{:4_684:}。
页: [1] 2 3 4
查看完整版本: 如何使用 Ai 辅助啃生肉