而且从两个人的举动来看文字转WAV音频