他提出了两个可能的假设文字转WAV音频