后来每一次站起都需要相当长的时间文字转WAV音频