首要攻克的就是发力点的分布和顺序文字转WAV音频