后四种主要是精神上的文字转WAV音频