【jinnianhui科技消息】近日,微博AI推出了開源大型語言模型(LLM)——VibeThinker-1.5B。據(jù)jinnianhui了解,該模型擁有15億參數(shù),在數(shù)學推理與代碼生成任務中卻展現(xiàn)出超越6710億參數(shù)競品的性能。目前,VibeThinker-1.5B可通過Hugging Face、GitHub及ModelScope平臺免費開放下載,供開發(fā)者與研究機構(gòu)使用。

VibeThinker-1.5B模型在數(shù)學和代碼任務上表現(xiàn)出色,達到了行業(yè)領(lǐng)先的推理性能,甚至超越了體量達6710億參數(shù)的競爭對手DeepSeek的R1模型。該模型還能與Mistral AI的Magistral Medium、Anthropic的Claude Opus4和OpenAI的gpt-oss-20B Medium等多個大型模型抗衡。

值得一提的是,VibeThinker-1.5B在后期訓練中僅花費了7800美元的計算資源,這一成本遠低于同類或更大規(guī)模模型所需的數(shù)十萬美元甚至數(shù)百萬美元。

VibeThinker-1.5B采用了一種名為“譜-信號原則”(Spectrum-to-Signal Principle,SSP)的訓練框架,該框架將監(jiān)督微調(diào)和強化學習分為兩個階段。第一個階段注重多樣性,第二個階段則通過強化學習優(yōu)化最優(yōu)路徑,使得小模型也能有效探索推理空間,從而實現(xiàn)信號放大。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-金年會體育