近日,大模型开源圈迎来重磅跨界新玩家——小红书开源了首个大模型dots.llm1。
dots.llm1是一个1420亿参数的MoE(混合专家)模型,仅激活140亿参数,可在中英文、数学、对齐等任务上实现与阿里Qwen3-32B接近的性能。在中文表现上,dots.llm1最终性能在C-Eval上达到92.2分,超过了包括DeepSeek-V3在内的所有模型。
此外,该模型的开源力度可以说是「卷」到了行业天花板。
不仅开源了 dots.llm1.inst 模型让开发者开箱即用,hi lab 团队还贴心地开源了一系列 pretrain base 模型,包括预训练第一阶段中每经过 1T tokens 后所保存的 checkpoint,以及退火阶段两次训练对应的模型 checkpoint、长文 base 模型。为了便于大家做 Continue Pretraining 和 Supervised Fine-tuning,hi lab 团队还详细介绍了 lr schedule 和 batch size 等信息。
真・从头开到尾,几乎每个细节都能拿来「二创」。
自 2023 年起,小红书就开始投入基础模型研发,本次开源正是其主动与技术社区展开对话的重要一步。
模型地址:
https://huggingface.co/rednote-hilab
https://github.com/rednote-hilab/dots.llm1
小红书 hi lab 即人文智能实验室(Humane Intelligence Lab),是小红书将内部大模型技术与应用产品团队升级后成立的。
随着人工智能技术的发展,小红书意识到当前 AI 的 “技术能力” 突飞猛进,但 “人文属性” 普遍缺失。为了让 AI 在理解用户需求的同时,更懂人类的情感、文化与社交规则,小红书决定将内部大模型团队升级为 hi lab,开启 AI “人文训练” 新实验。
今年年初,小红书组建了 “AI 人文训练师” 团队,该团队归属于 hi lab。与传统 AI 训练师不同,这支团队由 “双背景” 成员构成,包括人文研究者,如文学、社会学、心理学专家,负责提炼人类社交中的 “隐性规则”;以及算法工程师、科学家,将人文规则转化为模型可理解的训练数据,通过技术让 AI “学会” 应用。
hi lab 希望通过创造更多样的智能形式,如人际智能、空间智能、音乐智能等,进一步拓展人工智能和人机交互的边界,最终目标是 “让 AI 成为人类自然且有益的伙伴”。