而且第一个说话的未必就是能够做决定的人文字转WAV音频