在这种错综复杂的情况下文字转WAV音频