最近,在文本嵌入和大模型可解释性方面,知识库中记录了几项值得关注的进展,既有具体的产品发布,也有新的技术方案,但需要说明的是,其中部分内容并非以学术论文形式出现,而是来自新闻报道或开源项目。

在文本嵌入领域,最直接的内容是谷歌于2026年4月发布的Gemini Embedding 2模型[17]。这个新嵌入模型能够跨五种媒体类型理解语义,包括文本、图像、视频、音频和文档,并已通过Gemini API和Gemini Enterprise Agent Platform全面上线。它可以用于多种媒体之间的语义关系搜索与理解,这代表了嵌入模型从单一文本模态向多模态融合的扩展。不过,知识库中并没有提及该模型对应的具体学术论文,因此它更可能是一个产品层面的更新。

在大模型可解释性方面,知识库提供了多个新进展。最突出的是自然语言自编码器(NLAs)技术的提出,