真正的高音部分是从两分四十秒左右开始的文字转WAV音频