自己对于其中的情况还真的就是听差异的文字转WAV音频