肖恩马里奥
发表于 2023-7-9 01:27:14
本帖最后由 肖恩马里奥 于 2023-7-9 01:33 编辑
做歌词 搭配SpleeterGui简直神器
如果生成的字幕文件里面没有识别到歌词 可以用SpleeterGui把人声分离出来 视情况转换成mp3格式的音频文件(就我个人的使用来说,wav的音频文件识别不到的概率比mp3大) 放进去识别歌词 非常好用
肖恩马里奥
发表于 2023-7-9 10:18:31
syochan 发表于 2023-7-8 14:34
生成出的日语文本里面时常会有大段的无关内容,正常的对话却没有识别出来。有遇到过吗?
Dialogue: 0,1:53: ...
我是拿来做歌词的,遇到过这种情况,是没识别出来,一般我是SpleeterGui提取人声+改mp3格式解决的
但是不排除有极个别确实声音很杂无法辨识的
默沨
发表于 2023-7-10 09:19:15
肖恩马里奥 发表于 2023-7-9 10:18
我是拿来做歌词的,遇到过这种情况,是没识别出来,一般我是SpleeterGui提取人声+改mp3格式解决的
但是 ...
我识别歌词的时候发现small模型的效果最好,像是medium和large似乎集中关注了音乐识别出来的都是背景音
肖恩马里奥
发表于 2023-7-10 19:12:00
本帖最后由 肖恩马里奥 于 2023-7-10 19:15 编辑
默沨 发表于 2023-7-10 09:19
我识别歌词的时候发现small模型的效果最好,像是medium和large似乎集中关注了音乐识别出来的都是背景音
...
我是用最大的那个模型
至于识别不到人声的问题我直接用SpleeterGui提取人声再识别了
AI这块的东西算是我的知识盲区了,我也不知道为什么有的模型大有的模型小,所以就下了最大的。如果有大佬能解释一下就好了emmm
yww
发表于 2023-7-15 16:12:24
与中酱 发表于 2023-7-4 23:37
是的,关键就是在于这个科学上网,实在是我个人的一个痛点啊,没这个能力,现在需要下VCB种子都是让肉身 ...
科学上网的问题,这个基本上绕不开,毕竟 Google 访问对我是刚需,甚至有时 GitHub 都打不开。
其实成本也还好,我用的平台一年150 左右,对我来说足够用了。
yww
发表于 2023-7-15 16:14:50
乂熊貓乂 发表于 2023-7-6 21:30
有沒有不限字數的CHATGPT 推薦
字幕太長 都不能一次翻譯
不介意机翻的的话,Google translate 可以翻译很长的内容。
beiming2000
发表于 2023-7-18 16:16:04
syochan 发表于 2023-7-8 14:34
生成出的日语文本里面时常会有大段的无关内容,正常的对话却没有识别出来。有遇到过吗?
Dialogue: 0,1:53: ...
好像是所谓幻觉问题,长视频容易出现,gui版本好像没做参数调整,建议直接用cli版本添加参数-mc 0
syochan
发表于 2023-7-19 01:03:00
beiming2000 发表于 2023-7-18 16:16
好像是所谓幻觉问题,长视频容易出现,gui版本好像没做参数调整,建议直接用cli版本添加参数-mc 0
...
cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0,main.exe点击也没有什么反应。
beiming2000
发表于 2023-7-19 09:53:47
syochan 发表于 2023-7-19 01:03
cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0,main.exe点击也没有什么反应。
...
这是命令行方式操作的,要用终端之类的软件执行,cd进入main.exe所在文件夹然后输入命令例如下面这个命令就是转写samples.wav的,参数包括:模型为中等模型、最大上下文为0、使用GPU0、音频语言为中文、输出格式为srt文件.\main -m ggml-medium.bin -mc 0 -f samples.wav --use-gpu 0 -l zh -osrt
我也不专业,具体可以研究github上whisper.cpp项目说明
syochan
发表于 2023-7-20 00:48:08
beiming2000 发表于 2023-7-19 09:53
这是命令行方式操作的,要用终端之类的软件执行,cd进入main.exe所在文件夹然后输入命令例如下面这个命令 ...
已经超出我的能力范围了,但还是谢谢你