他必须要考虑到各种不同情况文字转WAV音频