却没有考虑周围会来人文字转WAV音频