也就是付出了足够的文字转WAV音频