我们能考虑的只有离开文字转WAV音频