他对于接下来的每一步文字转WAV音频