也不能确定说话的声音是从哪个方向传来的文字转WAV音频