阶跃星辰开源的Step-Audio-EditX,作为全球首个LLM级音频编辑大模型,核心围绕“情感、说话风格、副语言”三个维度实现细粒度的迭代控制:不仅能对愤怒、开心、悲伤等情绪的强度进行任意调整,还支持撒娇、耳语、老人等风格的多次叠加,同时可像添加字幕般插入呼吸、笑声、叹气等10类自然副语言token。该模型内置零样本TTS功能,无需目标人物的语音即可完成音色克隆,只需在文本前添加“[四川话]”“[粤语]”等标签,就能快速切换方言。在训练方面,模型完全基于大间隔合成数据开展SFT与PPO训练,在后训练阶段无需额外编码器或adapter,即可实现属性解耦与迭代控制。

Step-Audio-EditX的核心功能情感编辑:覆盖愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等数十种情感标签,支持多次迭代调整强度,可增强或减弱。风格编辑:提供撒娇、耳语、老人、小孩、严肃、慷慨、夸张等十余种说话风格,允许风格叠加与细节微调。副语言插入:能精准添加呼吸、笑声、叹气、惊讶(oh/ah)、确认(en)、不满(hnn)、疑问(ei)、嗯(uhm)等10类自然语音元素。零样本TTS:无需目标人物的语音素材即可克隆音色,在文本前添加“[四川话]”“[粤语]”等标签可直接切换方言。迭代控制:同一语音内容可反复进行编辑,各属性之间解耦不串扰,编辑效果能逐级叠加增强。开源轻量:推出8bit量化版本,单张8GB显存的显卡即可运行,使用4×A800/H800时可获得最佳音质;包含推理代码、训练代码、Gradio演示程序以及HuggingFace空间。Step-Audio-EditX的技术原理双码本音频分词:采用并行的16.7Hz/1024项“语言码本”和25Hz/4096项“语义码本”,按照2:3的比例交错切片,将任意语音统一转换为离散的token形式,保留语音中的情感与韵律信息,为后续大语言模型(LLM)的直接操作提供“语音词汇”基础。3B音频大语言模型:以文本预训练的3B模型作为热启动基础,将文本token与双码本音频token按照聊天格式拼接后输入模型,模型仅输出音频token;训练数据中,文本与音频的比例为1:1,充分借助已有的文本LLM生态进行后续训练。大间隔合成数据驱动:不引入额外的编码器或适配器,仅使用“相同文本、不同属性(情感/风格/副语言)”的成对数据进行监督微调(SFT)与近端策略优化(PPO);通过大间隔的设置,迫使模型学会属性解耦,从而实现迭代式的强度增减与多属性叠加功能。流匹配+BigVGANv2解码:音频LLM输出的双码本token经过DiT-流匹配模块生成Mel频谱,再通过BigVGANv2声码器还原为音频波形;200k小时的高质量训练数据保证了发音的准确度与音色的相似度。统一框架:同一套“分词→LLM→解码”的流程管线,可同时支持零样本TTS、情感/风格/副语言编辑、语速调节与降噪功能,无需为不同任务设置专属模块,大幅降低了系统复杂度与推理成本。Step-Audio-EditX的项目地址项目官网:https://stepaudiollm.github.io/step-audio-editx/Github仓库:https://github.com/stepfun-ai/Step-Audio-EditXHuggingFace模型库:https://huggingface.co/stepfun-ai/Step-Audio-EditXarXiv技术论文:https://arxiv.org/pdf/2511.03601Step-Audio-EditX的应用场景有声内容升级:有声书、播客、新闻朗读等内容,可一键叠加“开心/悲伤/耳语”等情绪或风格,无需重新录音就能快速生成多个版本的音频,提升听众的沉浸感。视频与广告配音:短视频、动画、广告片制作中,可零样本克隆角色音色,再迭代添加“撒娇、夸张、严肃”等风格,实现低成本、多角色、多情绪的自动配音。游戏/虚拟偶像:游戏中的NPC、虚拟主播、VTuber等角色,只需一句参考语音即可克隆音色,还能实时插入笑声、呼吸、叹气等副语言元素,打造更鲜活、可持续互动的角色语音。智能客服与语音助手:客服机器人可在原有TTS基础上,通过编辑将“平淡答复”转变为“热情/安抚”的情绪,改善用户体验;同时支持方言标签,满足地域化服务需求。教育/语言学习:在线课程、语言学习APP可利用“老人/小孩/耳语”等风格生成适合不同年龄段的读音,或把标准普通话快速切换为粤语、四川话,帮助学生跟读模仿,降低教师录音成本。会议记录与无障碍:针对含有噪声或过长停顿的会议录音,先进行“降噪+静音修剪”编辑,再根据需求提高语速或加入情感,生成清晰、易理解的会议纪要音频。
《桃源记2》中石作的建造方式
发布时间:2025-11-26
《英雄联盟手游》5.3d版本更新内容全知晓
发布时间:2025-11-27
《央视影音》把视频保存至手机相册的方法汇总
发布时间:2025-11-27
《原神》中罗莎莉亚圣遗物词条的搭配攻略
发布时间:2025-11-28
《英雄冒险团》战士属性加点攻略分享
发布时间:2025-11-28
《画世界》中向下合并图层的操作方法
发布时间:2025-11-29
第五人格毛利小五郎皮肤好不好?来看第五人格毛利小五郎皮肤介绍
发布时间:2025-11-29
《羊了个羊12月23日通关攻略,12.23过关技巧大揭秘》
发布时间:2025-11-30