然后是一段联合整训文字转WAV音频