这不过是基于对母域的了解文字转WAV音频