而且全程都在自言自语文字转WAV音频