更加倾向于第二种可能性文字转WAV音频