这大体说的是发音部位文字转WAV音频