然后从中推测到一些东西文字转WAV音频