只是偏向于辅助类型文字转WAV音频