我还是觉得第一种的可能性要大文字转WAV音频