前者可以说自己看不准文字转WAV音频