它们反而相信了文字转WAV音频