打破科大讯飞语晋级,声响音组成技能人才能完成复刻与超拟
6 月 26 日,科大讯飞语音组成技能全新晋级,一句话声响复刻与超拟人组成两大中心才能完成打破。据专业测评显现,科大讯飞一句话声响复刻技能在类似度、准确度等维度职业抢先。讯飞星火 App 的“一句话声
...
6 月 26 日 ,讯飞科大讯飞语音组成技能全新晋级,语音一句话声响复刻与超拟人组成两大中心才能完成打破。组成据专业测评显现 ,技能晋级科大讯飞一句话声响复刻技能在类似度 、声响准确度等维度职业抢先 。复刻
讯飞星火 App 的超拟成打“一句话声响复刻”功用自 2024 年 4 月上线以来,备受用户和职业认可 。讯飞在智能语音范畴,语音声响复刻作用的组成中心目标一直环绕类似度与准确度两大维度打开。类似度决议“榜首耳形象” ,技能晋级包括音色特质及风格神韵;准确度则关乎声响复刻是声响否好用,保证发音规范、复刻中止天然、超拟成打口气连接 。讯飞
此次讯飞技能打破的要害,除了星火语音大模型底座的根底和继续迭代 ,还构建了一套三阶段层次化语音建模结构 。首要,经过星火底座大模型准确捕捉发音规则和韵律特征 。其次,在音色康复阶段解耦并重构声学特征。最终 ,经过高精度声码器康复高保真波形 。
这套语音建模结构打破了语义表征 ,选用 mel VQ-AE 模型结合语音自监督预练习编码器,并引进音色最小互信息束缚,成功解耦出音色无关的离散语义 token 。这种结构完成了发音内容与音色特征的可控别离