ai孙燕姿下载,完整教程:AI孙燕姿翻唱《交换余生》
完整教程:AI孙燕姿翻唱《交换余生》
完整教程:使用AI孙燕姿翻唱《交换余生》
本文记录了使用AI孙燕姿模型翻唱林俊杰《交换余生》的完整流程,涵盖音频处理、模型加载、参数调整及合成等步骤。
1.准备原曲音频选择要翻唱的歌曲(如林俊杰的《交换余生》)。关键提示:若原曲为男声,建议优先寻找真人女歌手的翻唱版本作为参考,因男女音高差异可能影响效果。2.分离人声与伴奏工具:使用音频分离软件 UVR(推荐)或 SpleeterGUI(备用)。
UVR分离效果更干净,需将解压后的 UVR5模型.zip文件复制到安装目录的 models文件夹中(默认路径:C:Users<用户名>AppDataLocalProgramsUltimate Vocal Remover)。
操作步骤:
打开 UVR,按以下设置处理音频:
输出格式默认为 wav,无显卡时可关闭 GPU Conversion。
分离成功后,目录下生成两个文件:
Vocals(人声干声)
Instrument(伴奏)
可选步骤:若干声混响过重,可再次用 UVR按以下配置处理:
3.启动AI模型工具:使用 so-vits-svc框架。
打开资料包中的 so-vits-svc文件夹,运行启动webui.bat文件。
等待命令行加载完成后,自动弹出浏览器页面:
4.加载AI孙燕姿模型将训练好的模型文件(.pt或.pth)放入 so-vits-svc/pre_trained_model文件夹,config.json放入 so-vits-svc/configs文件夹。
在界面中选择对应参数加载模型:
成功加载后显示:
5.音频转换上传处理好的人声干声文件,点击“音频转换”开始生成。
关键参数:
F0均值滤波:解决哑音问题(若输出声音有明显哑音可勾选)。
变调:修改输出音调(如将原调 D升至 G,需同步调整伴奏音高)。
6.下载与合成转换完成后,页面显示结果:
点击播放试听,点击三点下载翻唱音频。
合成伴奏:
若翻唱时调整了音调,需用 Audacity修改伴奏音高:
导入伴奏,全选(Ctrl+A)。
菜单栏选择“效果>改变音高”,按需求调整(如升5个半音)。
导出时选择“文件>导出”(避免保存为工程文件)。
使用剪映将翻唱干声与调整后的伴奏合成,输出视频或音频。
总结本教程基于已有AI模型实现翻唱,若需从零训练AI歌手,可参考后续进阶教程。工具与素材下载:在公众号突围一只鹰回复“孙燕姿”获取。感谢:@归藏、@领航员未鸟、@羽毛布団提供的资料与教程支持。
来听听AI孙燕姿演唱的“成都”吧,是那味儿!
AI孙燕姿可以演唱《成都》,并且效果逼真,难以分辨是否为真人演唱。以下是关于如何制作AI孙燕姿演唱《成都》的详细步骤:
一、AI孙燕姿简介AI孙燕姿是通过AI技术,让孙燕姿的音色演唱用户喜欢的歌曲。在B站、抖音等平台上,AI孙燕姿“翻唱”的众多歌曲受到了广大网友的喜爱,播放量极高。
二、制作AI孙燕姿演唱《成都》的步骤1.歌曲准备选择歌曲:选择赵雷的《成都》作为目标歌曲,最好是单人solo版本,避免混声影响AI生成效果。格式转换:如果下载的歌曲不是FLAC格式,需要将其转换为FLAC格式。可以使用在线音频转换工具,如kgm.worthsee.com,将歌曲上传并转换为FLAC格式后下载到本地。2.下载安装TuneFlow软件下载地址:www.tuneflow.com/?lang=zh-CN安装软件:根据操作系统下载并安装TuneFlow软件。3.导入音乐并分离人声和伴奏新建项目:打开TuneFlow软件,注册并登录后选择新建项目。导入音乐:删除默认合成器(可选),导入准备好的FLAC格式《成都》歌曲。分离人声和伴奏:选中导入的音乐音轨,右键选择“运行插件→选中的片段→选择智能音频分轨”,然后点击“启用”。等待软件运行一段时间后,即可成功分离出人声和伴奏。4.使用AI孙燕姿声音演唱歌曲选择智能变声器:在TuneFlow软件中选择智能变声器中的YZ(AI孙燕姿)模型。调整音频轨道:确保音频轨道1是原歌曲,音频轨道2是原歌曲纯伴奏,音频轨道3是原歌曲人声(用于备用),音频轨道4是AI孙燕姿人声。处理乱音段:如果分离的人声中存在乱音段(通常是由于分离不彻底导致的),可以使用Ctrl+E键在时间轴上切断并删除AI孙燕姿人声中的乱音段,然后用原歌曲人声中的相应段代替。5.导出并合并音频静音原歌曲和人声轨道:将音频轨道1和音频轨道3静音。合并导出:将音频轨道2(伴奏)和音频轨道4(AI孙燕姿人声)合并导出为整首歌曲。保存文件:将导出的歌曲保存到电脑本地。三、成果展示经过以上步骤,你就可以成功制作出AI孙燕姿演唱的《成都》了。以下是制作过程中的一些关键步骤和成果展示的图片:
现在,你可以享受AI孙燕姿带来的独特音乐体验了!
AI孙燕姿背后的技术:So-VITS-SVC测试
AI孙燕姿背后的技术So-VITS-SVC是一种基于深度学习的歌声合成与转换技术,通过提取原始音频特征并合成目标音频实现声音风格转换,测试显示其效果较好但依赖高质量训练数据和输入音频。以下是具体测试过程与技术分析:
一、技术原理与工具选择So-VITS-SVC属于开源语音转换(SVC)技术的一种,其核心原理是通过深度学习模型提取原始音频的中间特征(如音高、音色、节奏等),再基于这些特征合成目标音频。测试中对比了三种主流开源SVC工具:
RVC:更适合语音转换,而非歌声合成。Diff-SVC:效果较好,但流行度较低。So-VITS-SVC:B站大部分SVC视频基于此工具,流行度最高,因此成为测试对象。
二、测试环境与数据准备硬件配置:RTX3060显卡、Windows10操作系统。数据来源:使用12首预先录制的干声(无伴奏人声)作为训练数据。工具整合包:通过指定文档下载,包含以下关键文件:Audio Slicer:音频切分工具(必选),用于将干声切片并放置在so-vits-svc/dataset_raw/文件夹中,切片后需按大小排序并剔除无效数据。
UVR5(Ultimate Vocal Remover):人声去除工具(可选),用于分离音频中的人声与伴奏。
so-vits-svc.zip:核心模型文件。
三、训练过程与参数配置默认配置:未大幅修改默认参数,训练参数如下图所示:
训练结果:运行时间:一晚上(约12小时),完成1470个epoch。
损失曲线:关键指标/g/mel损失降至17附近,表明模型收敛效果较好。
可视化工具:通过TensorBoard生成损失曲线,辅助监控训练过程。
四、推理配置与效果验证推理参数:勾选NSF_HIFIGAN选项,但实际效果差异不明显。
其他参数保持默认,未进行复杂调优。
效果评估:整体效果:合成音频质量较好,音色与孙燕姿相似度较高,但偶尔出现咬字不清晰的问题(如某些辅音发音模糊)。
数据质量影响:
训练数据需为高质量干声,若使用分离的人声数据,需进一步处理以减少噪声。
输入音频质量对结果影响显著:若原音频包含混响或和声,提取音高(f0)时易受干扰,导致合成音频出现“变哑”现象。
五、关键结论与建议数据质量优先:训练数据和输入音频均需高保真、无干扰,否则会显著降低合成效果。工具选择依据:So-VITS-SVC在歌声合成领域流行度高,适合快速上手,但需结合具体需求调整参数。潜在改进方向:优化数据预处理流程(如更精细的切片与降噪)。
调整模型参数(如增加训练轮次或调整学习率)以进一步提升咬字清晰度。
六、干声样本参考测试中使用了多段干声进行训练与推理,部分样本效果可通过链接查看(知乎视频形式):
干声样本1合成结果示例通过上述测试可见,So-VITS-SVC在歌声合成领域表现突出,但需严格把控数据质量与输入条件。未来可进一步探索模型轻量化与实时合成优化,以拓展其应用场景。
关于ai孙燕姿下载到此分享完毕,希望能帮助到您。