因为只有第二个听上去更加的合理文字转WAV音频