但是他们并不是凭借自身一步步的提升起来的文字转WAV音频