这需要极为密集的阵形文字转WAV音频