实际上更多的只是模仿文字转WAV音频