none.gif

c8d8cd86

简单交流一下ai音声(成人音频,非唱歌)的制作

分享一下个人的心得,刚刚开始玩。

训练,sovits v4整合包,N卡必须。

高质量的素材,通常为你希望生成的音声风格同类,且没有效果音的最好,大约10分钟左右,如果希望玩荤的,最好荤的部分单独模型存在(和素的分开)。我只玩荤的所以没有准备素的素材。

最好不要降噪,或者说最好你的素材就不需要降噪。

素材的中文标注要准确,有几个啊,写几个啊,如果你后续生成的部分希望有很多喘的,那么你最好把喘的时候的每一个嗯,呀,啊,哦都写出来,让ai可以识别出来。我的训练一共是127段,其中有一半以上都有大量的哦,嗯,啊,呀,标注费了不少力气,但是后续推理的时候输入的时候就很自然。

其他就按照整合包训练就好。

推理注意:第一,参考音频,这个很有用,对于语速,语音风格,都很有调整,比如不同风格的喘(加速喘,缓速喘)可以调节语速等等,另外就是荤的内容其实也没那么多情感,就是急和缓,用参考音频和语速选项进行控制,多抽几次卡就行。
第二,不要一次搞一大段,当然你可以用句号隔开,但是这种长段落每一个句号会有完全黑掉的声音,我现在的解决方法还是笨办法,就是每一句化开头加入几个啊啊,嗯啊之类的(反正我是玩荤的)然后用剪映认真的修剪出来,那个波形大致懂了以后其实还是很简单的。并且10来秒一句的质量也比一大段高很多,还能控制内容和情感(参考语段,标点符号等,但是控制的不精确)。
第三,其实效率不高,每一句话都要抽卡,调整,十来秒一句十来秒一句,一个5分钟的音频一做就是一下午,唯一的好处就是让ai音声完美的契合你的小众xp,仅此而已(这也就是目的了)。

还在钻研中,认真做的化确实和真人没有区别,接下来打算给声音加音效,dmm上卖的不少。


1165318.jpg

Frankcox

B1F  2025-05-16 15:44
(frankcox)
可以从游戏里抓包,拿配音文件。我就用游戏里提取的配音音频,好几百条,用GPT-Sovits训练后效果非常好。

none.gif

c8d8cd86

回 1楼(Frankcox) 的帖子

直接拿网上女菩萨的录音,都免费的,一两个就够了。

none.gif

邪王眞眼

先mark,后面学习一下,谢谢大佬

9.png

fudansoul

我也想弄一个AI的h演播剧,mark一下,学习了

none.gif

海绵体宝宝

感谢分享

710855.jpg

太曦神照

B6F  2025-05-24 21:30
(太穹混沌,曦宇定法,神临大地,照临玄劫)
抽卡也太真实了,之前练了两个,怎么跑怎么听都不对劲,最后还是直接拿别人训练好的模型来玩了
https://drive.google.com/file/d/1jsE__NwBAQTkBfoh8SkmLR-R1VVooCAJ/view?usp=sharing

452178.jpg

HarSin

我自己对比起来比起V4我更喜欢用V2,素材是真的难找,毕竟纯净的语音难搞,一般的作品都会带效果音,降噪之类的操作有时候又会吞掉一些音,导致声音出现一些毛病,我自己打标注的时候花费了很多很多时间去听和写那些嗯和啊,所以要是有大佬练好的分享就好了,如果是日文还好日文有台本字幕,所以相对容易,中文首先出色的声音就少,加上几乎没有台本,再加上淫语的音不准出现那种咿咿啊啊吐字不清的拖音也会导致很难炼。

none.gif

ailce

回 7楼(HarSin) 的帖子

因为V4更吃参考音频。导致输出生成出来的全是参考音频一个调调的。如果你显卡够好我推荐你使用V3。V3在参考音频方面更像V2,但是情感更吃微调

452178.jpg

HarSin

回 8楼(ailce) 的帖子

我没经历过V3版本,但是我印象中好像V3版本挺强的,但是我现在V4版本进去制作模型的时候只看到了V1 V2 V4选,不知道V3是不是要什么特殊方式开启,所以我自己也就试了试V1 V2 V4,V4给我的感觉不仅是更吃参考音,还有就是生成语音时候速度也慢,不过训练的时候速度挺快,可能这就是代价吧,不过我显卡不好所以显得慢些,反正V4比V2慢,而声音效果我对比了V1 V2 V4,1和2其实差别不大,但是V4我同一个训练集内容对比完1 2 4后我觉得V2的结果比较理想,包括读段落的时候标点导致吞字问题也是V4更容易吞掉字,虽然按标点切可以解决,但是按标点切的话语气质量又严重下降。在V3没有参考过的情况下我觉得V2更适合我,又或者这也跟运气有关我就不知道了。

1839842.jpg

西瓜怕热

B10F  2025-05-29 14:30
(X:@xiguapare1234)
第三点说的很对,目的就是满足自己的小众XP。

如果你有大把时间和想象力,可以做出很出色的作品

none.gif

XXOXO

楼主加油啊

none.gif

942b60d5

想要搞些符合性癖的台本又不想自己动脑写,有什么好用的大语言模型可以帮写台本的吗,上次用腾讯元宝的deepseek破限后搞黄色结果没几天号就被封了,gemini行不行,有破限词吗

none.gif

zhaojie

好好好好好好

2147754.jpg

[维·新·派]

B14F  2025-06-04 19:52
(www123pqa)
电报有人说他用的核显,没有显卡真能玩这个软件?

none.gif

dc0a85b6

玩了一段时间了,非常赞同这句话:唯一的好处就是让ai音声完美的契合你的小众xp

怎么说呢v3的版本我认为是不如v2的,v4暂时没试不知道效果如何。我的建议是找一个喜欢的声线定制,通过对定制作品的训练,可以训练出质量非常高的模型。

但是台本也是个问题。。自己写的台本自己完全知道,缺少惊喜感。。

113041.jpg

沉醉.

B16F  2025-06-11 14:28
(z605621278)
感觉这个有搞头,之前有个大佬分享了一个,没有杂音而且效果嘎嘎棒

none.gif

761fa217

心路历程差不多,但我之前是用的V2,一句一句制作可以最大程度贴合需求的语境,但衔接起来依然有些不自然的顿挫感,上下句的语气没法完全统一,而且嗯啊的生成太随缘了,抽卡着实有点费功夫

1370145.jpg

高大肥白美

B18F  2025-06-13 10:18
(世間女子皆禍根 唯有兩度討歡心)

none.gif

5c6e8672

也就是说正常对话的素材和喘的素材要分开炼是吗?我之前都混一块了,结果电流音很重