恐怕也很难完全掌控文字转WAV音频