同时也需要大量的媒介文字转WAV音频