前提是里面有人的情况下文字转WAV音频