第二次是四只文字转WAV音频