而是先观察四周文字转WAV音频