新模型不拼上下文长度,专治‘记不住事儿’的AI
QuasarModels刚放出Quasar-3B(1B Active),一个循环式连续时间Transformer。它不追求把上下文窗口拉到百万级,而是想解决一个更实际的问题:相隔几千个token的内容,模型还能不能靠谱地回应。
架构上混搭了自研的Quasar层和GLA(Gated Linear Attention)。GLA算注意力快,Quasar层负责记事儿——两者合起来搞“状态化推理”,意思是一次推理过程中记忆能持续累积、更新,而不是每轮都从零开始。这就像饭馆老伙计记熟客口味,不用每次进门都重新问一遍。
团队特意强调这是个“新组织”(new org),独立运作,不是哪家大厂的子项目。还补了一句“不是本月最后一次更新”,看来四月还有后手。我原以为又是换个名字炒冷饭,结果还真有点不一样。