用了大量的调料文字转WAV音频