如果我们能直接捕捉到混元灵根文字转WAV音频