第二阶段的准备都是尽可能的充足文字转WAV音频