很难直接感应到气息和位置文字转WAV音频