AI观察笔记 · 第 1 篇

AI模型按参数规模、底层框架、模态分类介绍

从大模型浪潮的技术底层出发,本文系统梳理了AI模型的核心分类维度:参数规模(衡量运行效率与部署成本)、底层架构(Transformer演化路径与新兴架构)以及模态能力(从单模态到具身智能)。建立清晰的技术坐标系,对当前前沿模型有个大致了解。

一、按参数规模分类

2024年前,参数规模是衡量模型“智能潜力”与“部署成本”的核心标准。

2024年后,行业发现“小模型+超高质量数据”的效果往往优于“大模型+平庸数据”。 参数规模视为衡量“运行效率”和“部署成本”的指标。

从技术底层逻辑来看,参数(Parameters) 是模型内部的配置变量,它们是 AI 在训练过程中通过数据“学习”到的、决定其行为的核心数值。

参数规模通常以 “B” 为单位(1B=10 亿)。

以下模型分类采用的是Artificial Analysis(一个专注大模型评测与对比的平台)的开源模型基准分类。

参数规模模型规模应用需求与硬件需求代表模型
≤40亿极小/端侧模型移动设备RAM、笔记本承载能力优先,适合离线场景。Qwen 3.5-2B
40亿 ~ 400亿小型模型部分模型(如 70B 以下)经量化后可在单张高性能消费级显卡上运行,但推理速度和并发能力受限。Gemma 4-31B
400亿 ~ 1500亿中型模型企业私有化部署主力,需要2~4张A100(80GB)或同等算力集群。GPT-OSS-120B
>1500亿大型模型闭源厂商核心竞争力,大规模H100算力集群。Kimi K2.6

二、按底层架构分类

2017年,Google在论文《Attention Is All You Need》中提出了Transformer架构。与之前主流的循环神经网络(RNN)不同,Transformer完全基于自注意力机制(Self-Attention),能够并行处理序列中的所有位置,大幅提升了训练效率和对长距离依赖的捕捉能力。

原始的 Transformer 包含编码器(Encoder)和解码器(Decoder),随后演化出三条主流路线:Encoder-only、Decoder-only、Encoder-Decoder。

📌 谷歌的BERT

谷歌的BERT模型只保留编码器(Encoder-only)部分。编码器的核心特点是双向注意力机制(Bidirectional Attention)——在理解一个词时,它可以同时“看到”这个词左边和右边的上下文。

BERT通过掩码语言模型(Masked Language Model, MLM)任务进行预训练:随机遮挡输入句子中的15%的词,它同时阅读上下文,让模型预测,来深度理解语言的含义。这使得BERT天然擅长理解任务,而非生成任务。

📌 OpenAI的GPT

OpenAI的GPT模型只保留解码器(Decoder-Only)部分。这意味着模型无法同时看到左右两侧的上下文——它只能从左到右、一个词一个词地阅读和生成。这种自回归(Autoregressive)生成方式,正是Decoder-Only架构的本质特征。这种“预测下一个词”的任务看似简单,但当模型规模扩大到一定程度时,涌现能力(Emergent Ability)便会出现——量变引发质变。

💡 《这就是ChatGPT》书中指出,神经网络有时解决复杂问题比解决简单问题更容易——当有很多“权重变量”时,高维空间中有“很多不同的方向”可以引导我们达到最优解。BERT路线的“复杂问题”被自身的架构约束所限制,而GPT路线则在这条“规模扩展”的道路上越走越远。

📌 混合专家模型 (MoE)

随着模型规模突破万亿参数,稠密模型(Dense Model,即每次推理激活全部参数)的计算成本变得难以承受。这催生了一种新架构:混合专家(Mixture of Experts, MoE)。

混合专家模型 (MoE): 模型内部有多个“专家模块”(如8个或16个),但每次推理只调用其中2-3个最相关的专家。这使得总参数量巨大(如1.8T),但推理成本远低于同等规模的稠密模型。例如,DeepSeek-V3/V4总参数量约为 671B,但每处理一个 Token 仅激活 37B 参数。

📌 新架构:状态空间模型 (SSM)

状态空间模型(State Space Model, SSM) 是目前最受关注的“Transformer 挑战者”。 2021 年前后,随着大模型对“超长文本”处理的需求激增,Transformer 的计算成本(随长度呈平方级增长)成为瓶颈。斯坦福大学的 Albert Gu 等研究者开始尝试将控制理论中的线性系统数学公式引入深度学习,试图寻找一种计算复杂度更低(线性增长)的替代方案。真正的突破来自Mamba(2023年底发布)。Mamba引入了选择性机制(Selective Mechanism)——它能够根据当前输入数据来决定哪些信息该记住、哪些该遗忘。

架构类型代表模型核心原理优势劣势
Transformer (Decoder-only)GPT系列, Claude, Llama自回归(Autoregressive),逐个预测下一个 Token。强大的生成能力,规模化效应(Scaling Law)最显著。计算复杂度随长度呈平方级增长(推理成本高)。
Transformer (Encoder-only)BERT, RoBERTa掩码语言模型,双向理解上下文。极强的语义理解、分类和特征提取能力。不擅长自由生成长文本。
Transformer (Enc-Dec)T5, BART结合了理解和生成,通过编码器处理输入,解码器产生输出。擅长翻译、摘要等“输入-输出”映射任务。架构相对复杂,训练效率在超大规模下不如 Decoder-only。
SSM (状态空间模型)Mamba线性递归逻辑,通过维持一个固定大小的状态来记忆信息。推理速度极快,处理超长序列时内存占用极低(线性增长)。纯 SSM 架构在复杂推理任务中仍不及同规模 Transformer。
MoE (混合专家模型)GPT-4, DeepSeek-V3稀疏激活架构,将模型分为多个子模块,每次仅调用部分参数。在保持高性能的同时,大幅降低单次推理的计算成本。训练稳定性要求高,对显存带宽和通信延迟的要求较高。
SSM+Transformer 混合JambaSSM善于捕捉全局上下文,Transformer善于捕捉局部依赖。将两种架构结合能产生更好的效果。架构更复杂

三、按模态(Modalities)能力分类

模态指的是数据的不同类型或形式。常见的数据模态包括文本、图像、视频、音频、传感器数据等。

模态类别核心技术定义核心特征代表模型
单模态 (Unimodal)仅处理或生成一种形式的数据输入输出一致,专注度高,早期基础模型主流BERT(文本), Whisper(音频), ResNet(图像)
跨模态 (Cross-modal)实现一种数据类型向另一种的“桥接”单向转换,文本驱动像素/视频生成Midjourney, Stable Diffusion (文生图); Sora, Kling (文生视频)
多模态理解 (Multimodal Understanding)接收多种模态输入,核心推理仍基于文本外挂视觉/音频编码器,挂载在LLM上GPT-4V, Claude 3.5 Sonnet, LLaVA
原生多模态 / Omni (Native Multimodal)预训练阶段同时输入多模态数据,端到端处理内生融合,模态间无损转化,低延迟,拥有理解语气/表情的直觉GPT-4o, Gemini 1.5 Pro
具身多模态 (Embodied AI / VLA)感知能力与物理动作(Action)结合,输出机器人控制指令感知-决策-执行闭环,动作作为一种特殊模态Google RT-2, Figure 01 (OpenAI驱动版)

🔗 参考文献:
[1] 大模型参数量选型指南 —— 华为云社区
[2] IBM: What are LLM parameters?
[3] Artificial Analysis: Open Source Models Comparison
[4] Attention Is All You Need (NeurIPS 2017)
[5] DeepSeek-V3/V4 技术白皮书 (2025-2026)

※ 注:本文内容基于截至2026年初公开技术报告与行业共识,“代表模型”仅作示意分类,技术迭代迅速,请以最新官方文档为准。笔记供个人学习、观察与交流。