而是从气息上来判断哪一方占据着上风文字转WAV音频