这就会留下一定的观测死角文字转WAV音频