【jinnianhui科技消息】jinnianhui從外媒獲悉,蘋果與俄亥俄州立大學的研究團隊近日發布了一項突破性研究,提出了一種名為“Fer:破高膙轔?f然揩襮嫛蟿F鳩5pep=k?確矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鵒黮}劷:q{|?e ?%坖D覑眤丬鯇M(纈s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫-Step Discrete Flor:破高膙轔?f然揩襮嫛蟿F鳩5pep=k?確矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鵒黮}劷:q{|?e ?%坖D覑眤丬鯇M(纈s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫-Matching(FS-DFM)”的新型語言模型。該模型基于擴散模型(diffusion model)的改進架構,能夠以極快的速度生成高質量長文本,速度最高可達傳統自回歸模型(如ChatGPT)的128倍。

與傳統自回歸模型逐詞生成文本的方式不同,FS-DFM通過并行生成多個詞元(token)并在少量迭代步驟中逐步優化文本,最終實現完整輸出。研究顯示,FS-DFM僅需8輪迭代即可生成與需上千步迭代的擴散模型相媲美的長文本內容。
據悉,為實現這一目標,研究團隊采用了三重技術策略:首先訓練模型適應不同迭代步數的計算預算;其次引入“教師”模型引導迭代過程,確保每次更新更準確且避免過度修正;最后優化迭代機制,以更少、更穩定的步驟達成最終結果。

在性能評估中,FS-DFM在困惑度(perplexity)和熵(entropy)兩項關鍵指標上表現優異。與70億參數的Dream擴散模型及80億參數的LLaDA擴散模型相比,參數規模僅17億、13億甚至1.7億的FS-DFM變體均實現了更低的困惑度(表明文本更自然準確)和更穩定的熵值(避免文本重復或混亂)。

研究團隊表示,由于該方法展現出顯著潛力且目前缺乏類似公開模型,他們將發布代碼和模型檢查點以促進學術復現與進一步探索。
版權所有,未經許可不得轉載
-金年會體育