其实我们完全不必跟踪文字转WAV音频