因为他大概能猜到文字转WAV音频