他最初的推测是错的文字转WAV音频