而不是先将能量提取出来文字转WAV音频