另外两种只是涉及皮毛文字转WAV音频