我倾向于第一种方案文字转WAV音频