一旦说话肯定就暴露了文字转WAV音频