两个照片里的人文字转WAV音频