找回密码
 立即注册
楼主: yww

如何使用 Ai 辅助啃生肉

  • TA的每日心情
    郁闷
    2 小时前
  • 签到天数: 1020 天

    [LV.10]以坛为家III

    20

    主题

    79

    回帖

    382

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    178030
    肖恩马里奥 发表于 2023-7-9 01:27:14 | 显示全部楼层
    本帖最后由 肖恩马里奥 于 2023-7-9 01:33 编辑

    做歌词 搭配SpleeterGui简直神器
    如果生成的字幕文件里面没有识别到歌词 可以用SpleeterGui把人声分离出来 视情况转换成mp3格式的音频文件(就我个人的使用来说,wav的音频文件识别不到的概率比mp3大) 放进去识别歌词 非常好用
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2 小时前
  • 签到天数: 1020 天

    [LV.10]以坛为家III

    20

    主题

    79

    回帖

    382

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    178030
    肖恩马里奥 发表于 2023-7-9 10:18:31 | 显示全部楼层
    syochan 发表于 2023-7-8 14:34
    生成出的日语文本里面时常会有大段的无关内容,正常的对话却没有识别出来。有遇到过吗?
    Dialogue: 0,1:53: ...

    我是拿来做歌词的,遇到过这种情况,是没识别出来,一般我是SpleeterGui提取人声+改mp3格式解决的

    但是不排除有极个别确实声音很杂无法辨识的
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2023-4-26 11:54
  • 签到天数: 32 天

    [LV.5]常住居民I

    4

    主题

    25

    回帖

    8

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    4675
    默沨 发表于 2023-7-10 09:19:15 | 显示全部楼层
    肖恩马里奥 发表于 2023-7-9 10:18
    我是拿来做歌词的,遇到过这种情况,是没识别出来,一般我是SpleeterGui提取人声+改mp3格式解决的

    但是 ...

    我识别歌词的时候发现small模型的效果最好,像是medium和large似乎集中关注了音乐识别出来的都是背景音
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2 小时前
  • 签到天数: 1020 天

    [LV.10]以坛为家III

    20

    主题

    79

    回帖

    382

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    178030
    肖恩马里奥 发表于 2023-7-10 19:12:00 | 显示全部楼层
    本帖最后由 肖恩马里奥 于 2023-7-10 19:15 编辑
    默沨 发表于 2023-7-10 09:19
    我识别歌词的时候发现small模型的效果最好,像是medium和large似乎集中关注了音乐识别出来的都是背景音
    ...

    我是用最大的那个模型

    至于识别不到人声的问题我直接用SpleeterGui提取人声再识别了


    AI这块的东西算是我的知识盲区了,我也不知道为什么有的模型大有的模型小,所以就下了最大的。如果有大佬能解释一下就好了emmm

    点评

    而没有bgm的采访视频,情况单纯许多。模型越大,准确越高。而且大模型并不照搬对话,会自主省去一些对话中多余的语气词和口癖,让人又爱又恨...  发表于 2023-7-16 00:28
    像入江老师一小时写真有五分钟对话,其余是bgm。base识别的对话最全面,但不够准确;small的单句准确性ok,但漏句多。其余模型无论大小均只识别bgm  发表于 2023-7-16 00:21
    具体来看,不同的模型都有其适用的场景,暂时做不到一个模型打遍全场。  发表于 2023-7-16 00:12
    在下这几天拿入江紗綾老师的超长写真和不少番剧sp里的采访啥的测试了一波,发现具体问题要具体分析。大体就如大佬所说,模型越大识别越精细。  发表于 2023-7-16 00:08
    yww
    我也不太懂,不过看起来越大的文件,识别起来越精准  发表于 2023-7-15 16:15
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2023-8-15 22:46
  • 签到天数: 7 天

    [LV.3]偶尔看看II

    3

    主题

    9

    回帖

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    3954
    yww  楼主| 发表于 2023-7-15 16:12:24 | 显示全部楼层
    与中酱 发表于 2023-7-4 23:37
    是的,关键就是在于这个科学上网,实在是我个人的一个痛点啊,没这个能力,现在需要下VCB种子都是让肉身 ...

    科学上网的问题,这个基本上绕不开,毕竟 Google 访问对我是刚需,甚至有时 GitHub 都打不开。

    其实成本也还好,我用的平台一年150 左右,对我来说足够用了。

    点评

    被你11块年费的备用梯震惊到了,这个价格  发表于 2023-7-16 08:49
    +1,大佬这个价位的梯子应该挺稳定了。其实不在意节点稳定性或者流量、速度限制的话,还能便宜。我就找了个11块年费的梯子来防止主力梯子挂掉2333  发表于 2023-7-16 00:59
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2023-8-15 22:46
  • 签到天数: 7 天

    [LV.3]偶尔看看II

    3

    主题

    9

    回帖

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    3954
    yww  楼主| 发表于 2023-7-15 16:14:50 | 显示全部楼层
    乂熊貓乂 发表于 2023-7-6 21:30
    有沒有不限字數的CHATGPT 推薦
    字幕太長 都不能一次翻譯

    不介意机翻的的话,Google translate 可以翻译很长的内容。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3

    回帖

    0

    VC币

    新手上路

    Rank: 1

    积分
    42
    beiming2000 发表于 2023-7-18 16:16:04 | 显示全部楼层
    syochan 发表于 2023-7-8 14:34
    生成出的日语文本里面时常会有大段的无关内容,正常的对话却没有识别出来。有遇到过吗?
    Dialogue: 0,1:53: ...

    好像是所谓幻觉问题,长视频容易出现,gui版本好像没做参数调整,建议直接用cli版本添加参数-mc 0
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2022-12-2 14:53
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    6

    主题

    20

    回帖

    531

    VC币

    高级会员

    Rank: 4

    积分
    20093
    syochan 发表于 2023-7-19 01:03:00 | 显示全部楼层
    beiming2000 发表于 2023-7-18 16:16
    好像是所谓幻觉问题,长视频容易出现,gui版本好像没做参数调整,建议直接用cli版本添加参数-mc 0
    ...

    cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0,main.exe点击也没有什么反应。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    0

    主题

    3

    回帖

    0

    VC币

    新手上路

    Rank: 1

    积分
    42
    beiming2000 发表于 2023-7-19 09:53:47 | 显示全部楼层
    syochan 发表于 2023-7-19 01:03
    cli.zip下载下来解压后三个文件不知道怎么添加参数-mc 0,main.exe点击也没有什么反应。
    ...

    这是命令行方式操作的,要用终端之类的软件执行,cd进入main.exe所在文件夹然后输入命令例如下面这个命令就是转写samples.wav的,参数包括:模型为中等模型、最大上下文为0、使用GPU0、音频语言为中文、输出格式为srt文件
    .\main -m ggml-medium.bin -mc 0 -f samples.wav --use-gpu 0 -l zh -osrt

    我也不专业,具体可以研究github上whisper.cpp项目说明
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2022-12-2 14:53
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    6

    主题

    20

    回帖

    531

    VC币

    高级会员

    Rank: 4

    积分
    20093
    syochan 发表于 2023-7-20 00:48:08 | 显示全部楼层
    beiming2000 发表于 2023-7-19 09:53
    这是命令行方式操作的,要用终端之类的软件执行,cd进入main.exe所在文件夹然后输入命令例如下面这个命令 ...

    已经超出我的能力范围了,但还是谢谢你
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表