几乎是将两人覆盖文字转WAV音频