大概正常情况下是普通人的两三倍文字转WAV音频