那是因为双方认知不同文字转WAV音频