2025-03|高质量中文预训练模型集合
在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新…
最新的模型汇总地址github: https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models
Expand Table of Contents
更新日志
基础大模型
对话大模型
多模态对话大模型
大模型评估基准
在线体验大模型
开源模型库平台
开源数据集库
开源中文指令数据集
Other-Awesome
NLU系列
BERT
RoBERTa
ALBERT
NEZHA
XLNET
MacBERT
WoBERT
ELECTRA
ZEN
ERNIE
ERNIE3
RoFormer
StructBERT
Lattice-BERT
Mengzi-BERT
ChineseBERT
TaCL
MC-BERT
二郎神
PERT
MobileBERT
GAU-α
DeBE ...
Arxiv今日论文 | 2026-02-25
本篇博文主要内容为 2026-02-25 从Arxiv.org论文网站获取的最新论文列表,自动更新,按照NLP、CV、ML、AI、IR、MA六个大方向区分。
说明:每日论文数据从Arxiv.org获取,每天早上12:30左右定时自动更新。
提示: 当天未及时更新,有可能是Arxiv当日未有新的论文发布,也有可能是脚本出错。尽可能会在当天修复。
目录
概览
自然语言处理CL
多智能体系统MA
信息检索IR
人机交互HC
人工智能AI
机器学习LG
计算机视觉CV
概览 (2026-02-25)
今日共更新517篇论文,其中:
自然语言处理共59篇(Computation and Language (cs.CL))
人工智能共146篇(Artificial Intelligence (cs.AI))
计算机视觉共125篇(Computer Vision and Pattern Recognition (cs.CV))
机器学习共149篇(Machine Learning (cs.LG))
多智能体系统共12篇(Multiagent Systems (cs.MA))
信息检索共15 ...
大模型数据合成新范式:2K样本打败30万,从特征空间精准狙击任务短板
【速读摘要】:该论文提出 Feature Activation Coverage (FAC) 指标,用于在 LLM 内部可解释特征空间度量数据多样性。基于 FAC,作者设计了两阶段数据合成框架 FAC Synthesis:首先通过 Sparse Autoencoder (SAE) 识别种子数据集中缺失的任务相关特征,然后生成显式激活这些特征的合成样本。实验表明,FAC 与下游任务性能呈强正相关(Pearson r=0.95r=0.95r=0.95),且该方法仅用 2K 合成样本即可达到 MAGPIE 300K 样本的指令跟随性能(150× 数据效率提升)。此外,作者发现 LLaMA、Mistral、Qwen 三大模型家族共享可解释特征空间,支持跨模型知识迁移。
【论文链接】:arXiv:2602.10388
【机构信息】:University of Georgia(美国佐治亚大学);University of California, San Diego(美国加州大学圣地亚哥分校);Mohamed bin Zayed University of Artificial Intellige ...
mid-training:构建预训练与后训练之间的分布式桥梁
【速读摘要】:本文系统研究了语言模型训练中"中训练"(Midtraining)阶段的作用——即在预训练和后训练之间插入一个混合专业数据的中间阶段。研究发现:1)Midtraining对代码、数学等与通用预训练数据差异较大的领域效果最显著;2)Midtraining能有效减少后训练阶段的灾难性遗忘;3)专业数据引入的时机和混合比例存在强交互作用——早期引入支持高混合比例,晚期引入则需保守混合;4)在减少遗忘方面,Midtraining始终优于纯持续预训练。
【论文链接】:arXiv:2510.14865 (ICML 2026)
【机构信息】:Carnegie Mellon University - Language Technologies Institute
【开源链接】:https://anonymous.4open.science/r/midtraining-E5D8/
【关键词】:midtraining, pretraining, finetuning, domain adaptation, catastrophic forgetting, distri ...
Arxiv今日论文 | 2026-02-24
本篇博文主要内容为 2026-02-24 从Arxiv.org论文网站获取的最新论文列表,自动更新,按照NLP、CV、ML、AI、IR、MA六个大方向区分。
说明:每日论文数据从Arxiv.org获取,每天早上12:30左右定时自动更新。
提示: 当天未及时更新,有可能是Arxiv当日未有新的论文发布,也有可能是脚本出错。尽可能会在当天修复。
目录
概览
自然语言处理CL
多智能体系统MA
信息检索IR
人机交互HC
人工智能AI
机器学习LG
计算机视觉CV
概览 (2026-02-24)
今日共更新550篇论文,其中:
自然语言处理共55篇(Computation and Language (cs.CL))
人工智能共161篇(Artificial Intelligence (cs.AI))
计算机视觉共141篇(Computer Vision and Pattern Recognition (cs.CV))
机器学习共149篇(Machine Learning (cs.LG))
多智能体系统共11篇(Multiagent Systems (cs.MA))
信息检索共19 ...
Arxiv今日论文 | 2026-02-23
本篇博文主要内容为 2026-02-23 从Arxiv.org论文网站获取的最新论文列表,自动更新,按照NLP、CV、ML、AI、IR、MA六个大方向区分。
说明:每日论文数据从Arxiv.org获取,每天早上12:30左右定时自动更新。
提示: 当天未及时更新,有可能是Arxiv当日未有新的论文发布,也有可能是脚本出错。尽可能会在当天修复。
目录
概览
自然语言处理CL
多智能体系统MA
信息检索IR
人机交互HC
人工智能AI
机器学习LG
计算机视觉CV
概览 (2026-02-23)
今日共更新412篇论文,其中:
自然语言处理共49篇(Computation and Language (cs.CL))
人工智能共101篇(Artificial Intelligence (cs.AI))
计算机视觉共60篇(Computer Vision and Pattern Recognition (cs.CV))
机器学习共159篇(Machine Learning (cs.LG))
多智能体系统共5篇(Multiagent Systems (cs.MA))
信息检索共16篇( ...
用"深度思考率"精准度量LLM推理质量
【速读】:该论文提出了一种新的推理质量度量指标——深度思考率(Deep-Thinking Ratio, DTR),通过分析模型内部各层预测分布的收敛行为来量化推理努力程度。研究发现,DTR与任务准确率呈现稳定正相关(平均r=0.683),显著优于基于token长度(r=-0.594)或置信度(r=0.605)的基线方法。基于此,作者设计了Think@n采样策略,在保持或超越标准自一致性性能的同时,将推理成本降低约50%。
【论文链接】:arXiv:2602.13517
【机构信息】:University of Virginia(弗吉尼亚大学);Google(谷歌)
【开源链接】:未开源
1. 背景与核心洞察 (The Core Insight)
当前大语言模型(LLM)的推理能力主要通过生成显式的思维链(Chain-of-Thought, CoT)来实现,业界普遍采用"测试时计算扩展"(test-time compute scaling)策略——即通过生成更长的推理轨迹来提升任务性能。然而,一个日益凸显的问题是:token数量并非推理质量的可靠代理指标。
近期多项 ...
Arxiv今日论文 | 2026-02-20
本篇博文主要内容为 2026-02-20 从Arxiv.org论文网站获取的最新论文列表,自动更新,按照NLP、CV、ML、AI、IR、MA六个大方向区分。
说明:每日论文数据从Arxiv.org获取,每天早上12:30左右定时自动更新。
提示: 当天未及时更新,有可能是Arxiv当日未有新的论文发布,也有可能是脚本出错。尽可能会在当天修复。
目录
概览
自然语言处理CL
多智能体系统MA
信息检索IR
人机交互HC
人工智能AI
机器学习LG
计算机视觉CV
概览 (2026-02-20)
今日共更新521篇论文,其中:
自然语言处理共71篇(Computation and Language (cs.CL))
人工智能共169篇(Artificial Intelligence (cs.AI))
计算机视觉共61篇(Computer Vision and Pattern Recognition (cs.CV))
机器学习共163篇(Machine Learning (cs.LG))
多智能体系统共11篇(Multiagent Systems (cs.MA))
信息检索共20篇 ...
前沿大模型训练方法:深度解析与实践指南
前言
实验室如何训练一个拥有数百亿参数的前沿大模型?本文深入剖析七个开源权重的前沿模型:Hugging Face的 SmolLM3、Prime Intellect的 Intellect 3、Nous Research的 Hermes 4、OpenAI的 gpt-oss-120b、Moonshot的 Kimi K2、DeepSeek的 DeepSeek-R1 以及 Arcee的[Trinity series](https://github.com/arcee-ai/trinity-large-tech-report/blob/main/Arcee Trinity Large.pdf)。本文旨在提炼这些模型训练中使用的技术、动机和考量因素,重点关注训练方法而非基础设施。
本文的结构主要参考 Hugging Face 详尽的 SmolLM3 技术报告,因其内容最为详尽,并补充了 Intellect-3、gpt-oss-120b、Hermes 4、DeepSeek 和 Kimi的相关笔记。Hugging Face 在这里 详细介绍了 gpt-oss-120b 的基础设施。
概述
核心要点
...
Arxiv今日论文 | 2026-02-19
本篇博文主要内容为 2026-02-19 从Arxiv.org论文网站获取的最新论文列表,自动更新,按照NLP、CV、ML、AI、IR、MA六个大方向区分。
说明:每日论文数据从Arxiv.org获取,每天早上12:30左右定时自动更新。
提示: 当天未及时更新,有可能是Arxiv当日未有新的论文发布,也有可能是脚本出错。尽可能会在当天修复。
目录
概览
自然语言处理CL
多智能体系统MA
信息检索IR
人机交互HC
人工智能AI
机器学习LG
计算机视觉CV
概览 (2026-02-19)
今日共更新482篇论文,其中:
自然语言处理共85篇(Computation and Language (cs.CL))
人工智能共136篇(Artificial Intelligence (cs.AI))
计算机视觉共66篇(Computer Vision and Pattern Recognition (cs.CV))
机器学习共170篇(Machine Learning (cs.LG))
多智能体系统共14篇(Multiagent Systems (cs.MA))
信息检索共12篇 ...







