我怎么知道他们会给这么高的分数文字转WAV音频