后者只是把头埋下文字转WAV音频