https://hits.seeyoufarm.com/api/count/incr/badge.svg?url=https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a&count_bg=#79C83D&title_bg=#555555&icon=&icon_color=#E7E7E7&title=hits&edge_flat=false

作者:胡声鼎、涂宇鸽、韩旭*、崔淦渠、贺超群、赵威霖、龙翔、郑直、方晔玮、张开活、黄宇翔、戴振宁、龚柏涛、王崇屹、姚远、周界、蔡杰、张新荣、翟忠武、丁宁、贾超、曾国洋、李大海、刘知远*、孙茂松等

机构:面壁智能、清华自然语言处理实验室

Github: OpenBMB/MiniCPM: MiniCPM-2B: An end-side LLM outperforms Llama2-13B. (github.com)

💥 论文已在Arxiv平台公开![2404.06395] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (arxiv.org)

一、简介

MiniCPM是一系列端侧语言大模型,主体语言模型MiniCPM-2B具有2.4B的非词嵌入参数量。在综合性榜单上与Mistral-7B相近(中文、数学、代码能力更优),整体性能超越Llama2-13B、MPT-30B、Falcon-40B等模型。在当前最接近用户体感的榜单MTBench上,MiniCPM-2B也超越了Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha等众多代表性开源大模型。

我们将完全开源MiniCPM-2B的模型参数供学术研究和有限商用,以及训练过程中的所有Checkpoint和大部分非专有数据(需要一定时间准备)给模型机理研究。

具体而言,目前我们已开源以下模型:

模型整体性能:

平均分 英文均分(包括代码数学推理) 中文均分
Llama2-7B 35.40 36.21 31.77
Qwen-7B 49.46 47.19 59.66
Deepseek-7B 39.96 39.15 43.64
Mistral-7B 48.97 49.96 44.54
Llama2-13B 41.48 42.44 37.19
MPT-30B 38.17 39.82 30.72
Falcon-40B 43.62 44.21 40.93
MiniCPM-2B 52.33 52.60 51.10

局限性: