第二阶段是顺势借用文字转WAV音频