分享一下个人的心得,刚刚开始玩。
训练,sovits v4整合包,N卡必须。
高质量的素材,通常为你希望生成的音声风格同类,且没有效果音的最好,大约10分钟左右,如果希望玩荤的,最好荤的部分单独模型存在(和素的分开)。我只玩荤的所以没有准备素的素材。
最好不要降噪,或者说最好你的素材就不需要降噪。
素材的中文标注要准确,有几个啊,写几个啊,如果你后续生成的部分希望有很多喘的,那么你最好把喘的时候的每一个嗯,呀,啊,哦都写出来,让ai可以识别出来。我的训练一共是127段,其中有一半以上都有大量的哦,嗯,啊,呀,标注费了不少力气,但是后续推理的时候输入的时候就很自然。
其他就按照整合包训练就好。
推理注意:第一,参考音频,这个很有用,对于语速,语音风格,都很有调整,比如不同风格的喘(加速喘,缓速喘)可以调节语速等等,另外就是荤的内容其实也没那么多情感,就是急和缓,用参考音频和语速选项进行控制,多抽几次卡就行。
第二,不要一次搞一大段,当然你可以用句号隔开,但是这种长段落每一个句号会有完全黑掉的声音,我现在的解决方法还是笨办法,就是每一句化开头加入几个啊啊,嗯啊之类的(反正我是玩荤的)然后用剪映认真的修剪出来,那个波形大致懂了以后其实还是很简单的。并且10来秒一句的质量也比一大段高很多,还能控制内容和情感(参考语段,标点符号等,但是控制的不精确)。
第三,其实效率不高,每一句话都要抽卡,调整,十来秒一句十来秒一句,一个5分钟的音频一做就是一下午,唯一的好处就是让ai音声完美的契合你的小众xp,仅此而已(这也就是目的了)。
还在钻研中,认真做的化确实和真人没有区别,接下来打算给声音加音效,dmm上卖的不少。