AI观察笔记 · 第 1 篇

AI模型按参数规模、底层框架、模态分类介绍

从大模型浪潮的技术底层出发，本文系统梳理了AI模型的核心分类维度：参数规模（衡量运行效率与部署成本）、底层架构（Transformer演化路径与新兴架构）以及模态能力（从单模态到具身智能）。建立清晰的技术坐标系，对当前前沿模型有个大致了解。

一、按参数规模分类

2024年前，参数规模是衡量模型“智能潜力”与“部署成本”的核心标准。

2024年后，行业发现“小模型+超高质量数据”的效果往往优于“大模型+平庸数据”。 参数规模视为衡量“运行效率”和“部署成本”的指标。

从技术底层逻辑来看，参数（Parameters）是模型内部的配置变量，它们是 AI 在训练过程中通过数据“学习”到的、决定其行为的核心数值。

参数规模通常以 “B” 为单位（1B=10 亿）。

以下模型分类采用的是Artificial Analysis（一个专注大模型评测与对比的平台）的开源模型基准分类。

参数规模	模型规模	应用需求与硬件需求	代表模型
≤40亿	极小/端侧模型	移动设备RAM、笔记本承载能力优先，适合离线场景。	Qwen 3.5-2B
40亿 ~ 400亿	小型模型	部分模型（如 70B 以下）经量化后可在单张高性能消费级显卡上运行，但推理速度和并发能力受限。	Gemma 4-31B
400亿 ~ 1500亿	中型模型	企业私有化部署主力，需要2~4张A100（80GB）或同等算力集群。	GPT-OSS-120B
＞1500亿	大型模型	闭源厂商核心竞争力，大规模H100算力集群。	Kimi K2.6

二、按底层架构分类

2017年，Google在论文《Attention Is All You Need》中提出了Transformer架构。与之前主流的循环神经网络（RNN）不同，Transformer完全基于自注意力机制（Self-Attention），能够并行处理序列中的所有位置，大幅提升了训练效率和对长距离依赖的捕捉能力。

原始的 Transformer 包含编码器(Encoder)和解码器(Decoder)，随后演化出三条主流路线：Encoder-only、Decoder-only、Encoder-Decoder。

📌 谷歌的BERT

谷歌的BERT模型只保留编码器（Encoder-only）部分。编码器的核心特点是双向注意力机制（Bidirectional Attention）——在理解一个词时，它可以同时“看到”这个词左边和右边的上下文。

BERT通过掩码语言模型（Masked Language Model, MLM）任务进行预训练：随机遮挡输入句子中的15%的词，它同时阅读上下文，让模型预测，来深度理解语言的含义。这使得BERT天然擅长理解任务，而非生成任务。

📌 OpenAI的GPT

OpenAI的GPT模型只保留解码器（Decoder-Only）部分。这意味着模型无法同时看到左右两侧的上下文——它只能从左到右、一个词一个词地阅读和生成。这种自回归（Autoregressive）生成方式，正是Decoder-Only架构的本质特征。这种“预测下一个词”的任务看似简单，但当模型规模扩大到一定程度时，涌现能力（Emergent Ability）便会出现——量变引发质变。

💡 《这就是ChatGPT》书中指出，神经网络有时解决复杂问题比解决简单问题更容易——当有很多“权重变量”时，高维空间中有“很多不同的方向”可以引导我们达到最优解。BERT路线的“复杂问题”被自身的架构约束所限制，而GPT路线则在这条“规模扩展”的道路上越走越远。

📌 混合专家模型 (MoE)

随着模型规模突破万亿参数，稠密模型（Dense Model，即每次推理激活全部参数）的计算成本变得难以承受。这催生了一种新架构：混合专家（Mixture of Experts, MoE）。

混合专家模型 (MoE)： 模型内部有多个“专家模块”（如8个或16个），但每次推理只调用其中2-3个最相关的专家。这使得总参数量巨大（如1.8T），但推理成本远低于同等规模的稠密模型。例如，DeepSeek-V3/V4总参数量约为 671B，但每处理一个 Token 仅激活 37B 参数。

📌 新架构：状态空间模型 (SSM)

状态空间模型（State Space Model, SSM） 是目前最受关注的“Transformer 挑战者”。 2021 年前后，随着大模型对“超长文本”处理的需求激增，Transformer 的计算成本（随长度呈平方级增长）成为瓶颈。斯坦福大学的 Albert Gu 等研究者开始尝试将控制理论中的线性系统数学公式引入深度学习，试图寻找一种计算复杂度更低（线性增长）的替代方案。真正的突破来自Mamba（2023年底发布）。Mamba引入了选择性机制（Selective Mechanism）——它能够根据当前输入数据来决定哪些信息该记住、哪些该遗忘。

架构类型	代表模型	核心原理	优势	劣势
Transformer (Decoder-only)	GPT系列, Claude, Llama	自回归（Autoregressive），逐个预测下一个 Token。	强大的生成能力，规模化效应（Scaling Law）最显著。	计算复杂度随长度呈平方级增长（推理成本高）。
Transformer (Encoder-only)	BERT, RoBERTa	掩码语言模型，双向理解上下文。	极强的语义理解、分类和特征提取能力。	不擅长自由生成长文本。
Transformer (Enc-Dec)	T5, BART	结合了理解和生成，通过编码器处理输入，解码器产生输出。	擅长翻译、摘要等“输入-输出”映射任务。	架构相对复杂，训练效率在超大规模下不如 Decoder-only。
SSM (状态空间模型)	Mamba	线性递归逻辑，通过维持一个固定大小的状态来记忆信息。	推理速度极快，处理超长序列时内存占用极低（线性增长）。	纯 SSM 架构在复杂推理任务中仍不及同规模 Transformer。
MoE (混合专家模型)	GPT-4, DeepSeek-V3	稀疏激活架构，将模型分为多个子模块，每次仅调用部分参数。	在保持高性能的同时，大幅降低单次推理的计算成本。	训练稳定性要求高，对显存带宽和通信延迟的要求较高。
SSM+Transformer 混合	Jamba	SSM善于捕捉全局上下文，Transformer善于捕捉局部依赖。	将两种架构结合能产生更好的效果。	架构更复杂

三、按模态（Modalities）能力分类

模态指的是数据的不同类型或形式。常见的数据模态包括文本、图像、视频、音频、传感器数据等。

模态类别	核心技术定义	核心特征	代表模型
单模态 (Unimodal)	仅处理或生成一种形式的数据	输入输出一致，专注度高，早期基础模型主流	BERT(文本), Whisper(音频), ResNet(图像)
跨模态 (Cross-modal)	实现一种数据类型向另一种的“桥接”	单向转换，文本驱动像素/视频生成	Midjourney, Stable Diffusion (文生图); Sora, Kling (文生视频)
多模态理解 (Multimodal Understanding)	接收多种模态输入，核心推理仍基于文本	外挂视觉/音频编码器，挂载在LLM上	GPT-4V, Claude 3.5 Sonnet, LLaVA
原生多模态 / Omni (Native Multimodal)	预训练阶段同时输入多模态数据，端到端处理	内生融合，模态间无损转化，低延迟，拥有理解语气/表情的直觉	GPT-4o, Gemini 1.5 Pro
具身多模态 (Embodied AI / VLA)	感知能力与物理动作(Action)结合，输出机器人控制指令	感知-决策-执行闭环，动作作为一种特殊模态	Google RT-2, Figure 01 (OpenAI驱动版)

🔗 参考文献：
[1] 大模型参数量选型指南 —— 华为云社区
[2] IBM: What are LLM parameters?
[3] Artificial Analysis: Open Source Models Comparison
[4] Attention Is All You Need (NeurIPS 2017)
[5] DeepSeek-V3/V4 技术白皮书 (2025-2026)

※ 注：本文内容基于截至2026年初公开技术报告与行业共识，“代表模型”仅作示意分类，技术迭代迅速，请以最新官方文档为准。笔记供个人学习、观察与交流。