镜头框住俩人的正脸文字转WAV音频