VALL-E X: 多语言文本到语音合成与语音克隆
https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md
仅需录制任意说话人的短短的 3~10 秒录音,VALL-E X 就能生成个性化、高质量的语音,完美还原他们的声音。