实际上却差了两层位面文字转WAV音频