每一个可能的取景文字转WAV音频