两人可以清晰感应到文字转WAV音频