因为他们知道在当事人表态前不能胡乱掺合文字转WAV音频