我根据那周围的脚步声辨识出文字转WAV音频