如果双方的认同度都非常高的话文字转WAV音频