根本就难以维持身形文字转WAV音频