而是在慢慢观察文字转WAV音频