其实这样一来成本可能会增加文字转WAV音频