从头部开始进行详细的观察文字转WAV音频