如果不通过这样的方式来理解文字转WAV音频