当然她也知道很大程度的一部分是因为文字转WAV音频