如何使用 Ai 辅助啃生肉 - 第3页 - 灌水聊天 - Anime字幕论坛

肖恩马里奥 发表于 2023-7-9 01:27:14

本帖最后由肖恩马里奥于 2023-7-9 01:33 编辑

做歌词搭配SpleeterGui简直神器
如果生成的字幕文件里面没有识别到歌词可以用SpleeterGui把人声分离出来视情况转换成mp3格式的音频文件（就我个人的使用来说，wav的音频文件识别不到的概率比mp3大）放进去识别歌词非常好用

肖恩马里奥 发表于 2023-7-9 10:18:31

syochan 发表于 2023-7-8 14:34
生成出的日语文本里面时常会有大段的无关内容，正常的对话却没有识别出来。有遇到过吗？
Dialogue: 0,1:53: ...

我是拿来做歌词的，遇到过这种情况，是没识别出来，一般我是SpleeterGui提取人声+改mp3格式解决的

但是不排除有极个别确实声音很杂无法辨识的

默沨发表于 2023-7-10 09:19:15

肖恩马里奥发表于 2023-7-9 10:18
我是拿来做歌词的，遇到过这种情况，是没识别出来，一般我是SpleeterGui提取人声+改mp3格式解决的

但是 ...

我识别歌词的时候发现small模型的效果最好，像是medium和large似乎集中关注了音乐识别出来的都是背景音

肖恩马里奥 发表于 2023-7-10 19:12:00

本帖最后由肖恩马里奥于 2023-7-10 19:15 编辑

默沨发表于 2023-7-10 09:19
我识别歌词的时候发现small模型的效果最好，像是medium和large似乎集中关注了音乐识别出来的都是背景音
...
我是用最大的那个模型

至于识别不到人声的问题我直接用SpleeterGui提取人声再识别了

AI这块的东西算是我的知识盲区了，我也不知道为什么有的模型大有的模型小，所以就下了最大的。如果有大佬能解释一下就好了emmm

yww 发表于 2023-7-15 16:12:24

与中酱发表于 2023-7-4 23:37
是的，关键就是在于这个科学上网，实在是我个人的一个痛点啊，没这个能力，现在需要下VCB种子都是让肉身 ...

科学上网的问题，这个基本上绕不开，毕竟 Google 访问对我是刚需，甚至有时 GitHub 都打不开。

其实成本也还好，我用的平台一年150 左右，对我来说足够用了。

yww 发表于 2023-7-15 16:14:50

乂熊貓乂发表于 2023-7-6 21:30
有沒有不限字數的CHATGPT 推薦
字幕太長都不能一次翻譯

不介意机翻的的话，Google translate 可以翻译很长的内容。

beiming2000 发表于 2023-7-18 16:16:04

syochan 发表于 2023-7-8 14:34
生成出的日语文本里面时常会有大段的无关内容，正常的对话却没有识别出来。有遇到过吗？
Dialogue: 0,1:53: ...

好像是所谓幻觉问题，长视频容易出现，gui版本好像没做参数调整，建议直接用cli版本添加参数-mc 0

syochan 发表于 2023-7-19 01:03:00

beiming2000 发表于 2023-7-18 16:16
好像是所谓幻觉问题，长视频容易出现，gui版本好像没做参数调整，建议直接用cli版本添加参数-mc 0
...

cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0，main.exe点击也没有什么反应。

beiming2000 发表于 2023-7-19 09:53:47

syochan 发表于 2023-7-19 01:03
cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0，main.exe点击也没有什么反应。
...

这是命令行方式操作的，要用终端之类的软件执行，cd进入main.exe所在文件夹然后输入命令例如下面这个命令就是转写samples.wav的，参数包括：模型为中等模型、最大上下文为0、使用GPU0、音频语言为中文、输出格式为srt文件.\main -m ggml-medium.bin -mc 0 -f samples.wav --use-gpu 0 -l zh -osrt
我也不专业，具体可以研究github上whisper.cpp项目说明

syochan 发表于 2023-7-20 00:48:08

beiming2000 发表于 2023-7-19 09:53
这是命令行方式操作的，要用终端之类的软件执行，cd进入main.exe所在文件夹然后输入命令例如下面这个命令 ...

已经超出我的能力范围了，但还是谢谢你

页: 1 2 [3] 4

Anime字幕论坛's Archiver