继而通过气息追寻文字转WAV音频