比较差的是情节和人物文字转WAV音频