最后定位在服装上文字转WAV音频