2025 年末回顾：大模型趋势与实测

技术趋势

MoE

今年发布的顶级模型（如 DeepSeek-V3、GPT-5）全面转向 MoE 架构。通过将专家模型细粒度化，模型在训练阶段可触达万亿级参数，但在推理时仅激活极小比例的参数簇，极大缓解显存压力并降低 Token 成本。

路由机制更稳定，专家塌缩问题显著缓解
专家分工明确，模型在不同专业领域的表现更加均衡
针对推理时延优化的 MoE 设计开始大规模商用

长上下文

2025 年年末，百万级 Token 上下文已成为中端模型标配。关键进展包括：

稀疏注意力与分层注意力机制
上下文压缩与结构化记忆
长上下文模型开始作为 RAG 的高效重排器

推理模型普及

2024 年推理模型已经出现，但在 2025 年走向普及。年初 DeepSeek-R1 的发布震撼全球，其通过大规模 RL 获得反思、纠错、验证能力，不再完全依赖 SFT 中的人类语料。后续 OpenAI o1 及后续版本，及其他厂商的推理模型继续加强该范式，尖端模型推理能力竞争激烈。可以明显感受到推理模型在数学推导、复杂代码重构等方面的提升。

多模态融合

多模态技术在 Transformer 底层实现了真正的统一。模型在预训练阶段即实现了图像、视频、音频和文本的混合输入，不再依赖外部「视觉编码器」将图像转化为中间 Token，实现了更深层级的跨模态理解。例如，基于 Transformer 的视频生成模型开始支持音频输出，视频质量提升显著；图像编辑模型（如 Nano Banana、Nano Banana Pro 和 Qwen Image Edit）支持多图输入，且细节保持度有提升；部分模型支持通过单个多模态模型处理音频输入输出（如 GPT-realtime），不再需要额外的 STT、TTS 模型。

智能体

随着推理能力、长上下文和工具调用机制的成熟，智能体成为一种更可控的系统架构。模型不再一边思考一边行动，而是先进行规划，再逐步执行，并在关键节点进行校验和纠错。

关于模型

一张图概括今年的大模型发展：

OpenAI、Anthropic、Gemini、Grok 相继发布性能领先的模型。

ChatGPT

失去了 Pandora 提供的稳定服务后，ChatGPT 账号一直处于闲置状态。后来更换了纯净度尚可的机场订阅，重新登录了 ChatGPT。最初几天模型一度降智到 GPT-4o mini，完全无法日常使用。但几天后降智解除，可以正常使用 CoT 模型。在 Linux Do 跳蚤市场找到了一个稳定的 ChatGPT Team 提供方上车，以较低的成本用上了 OpenAI 的顶级模型及 Codex 额度。

体验

Agentic 能力优化较好：开启 CoT 后模型可以执行代码、搜索网页内容，例如对上传的图片用 Python 处理后提高可读性，或裁切图片关注细节
擅长理科：感受上思考模式做数学 / 物理 / 化学，总体效果优于其他模型
CoT 模型思考耗时过长：如果选择 Extended Thinking 模式，比较困难的题目动辄 10 分钟以上。但不可否认，这种「时间换质量」的做法确实有效，有时候能给出很高质量的答案
多模态能力有限：这方面明显还是 Gemini 做得更好一些，ChatGPT 时常出现图片文字识别错误的问题
前端设计有缺陷：思考模式需要很长时间，期间只要网络有不稳定，思考终止且无法恢复，只能重新进行。一个奇怪但有效的解决方案是输入问题，等思考的提示出现，立即关闭标签页；估计思考时间结束再重新打开页面，得到完整解答

降智与风控

ChatGPT 的降智比较玄学。家宽、质量稍好的机场 IP 稳定后均能正常使用。但如果同一设备多账号登录就会同时降智；切换 IP 也会短时间降智。恢复时间不定。

11 月，使用的机场更换了落地服务器（滥用情况严重）导致降智。如果强制开启搜索，则表现正常为 GPT-5.1，其他情况都降智到 GPT-4o mini。换用台湾家宽解决。

Juice 测试可以测试 ChatGPT CoT 模型的降智程度。后续针对更新模型有不同变体，但原理类似。

12 月，GPT-5.2 发布，Team 风控严重，拼车涨价。

Gemini

ChatGPT 刚出现的时候，很多人认为 OpenAI 会威胁到 Google 在搜索引擎的地位（尤其是 Bing 与 ChatGPT 结合提供 AI 搜索后）。Google 匆忙推出的 Bard 竞品饱受诟病，落后于当时的 GPT-4。但这种情况在 2024 年开始有所改观，2025 年更是达到业界顶流水平。但考虑到 Google 的硬件、数据、技术资源，今年的飞跃也是有迹可循：Google 以搜索引擎为主要业务，自然不缺乏训练数据；Google DeepMind（包括合并前的 DeepMind 和 Google Brain）长期进行人工智能前沿研究；Google 有自研的 TPU 用于机器学习，算力相对充足。

5 月，利用 Google One 学生优惠的漏洞，免费获取了 Google AI Pro 订阅（无需学生证明，无需信用卡）。由此，我开始使用 Gemini，体验到了几乎无限制的用量和 Deep Research 等所有高级功能。6 月，Google 发布 Gemini 2.5 Flash / Pro，正好赶上这次更新。然而，在 9 月，由于漏洞已被修复，无法继续更新学生订阅，从而失去了会员特权。

此后，转而使用 Google AI Studio 中的基础模型。虽然无法再享受 Deep Research 等高级功能，但其在模型选择、对话编辑和自定义参数等方面提供了更大的自由度，且用量限制极低。

同时，开始使用 NotebookLM 辅助学习研究。例如使用 NotebookLM 复习生物，可以直接上传电子版教材，要求整理思维导图，生成小测。这种复习方式明显比自行看教材复习高效不少。

11 月，Google 发布 Gemini 3 Pro 模型预览。前端能力极强，诸多领域再次回到 LMArena 榜首。以下是 Gemini 3 Pro Preview 生成的 Neobrutalism 风格 B.Duck 20 岁生日庆祝页面（Gemini 3 Pro Preview 生成，GPT-5.1 Codex 修改微调）：

Gemini 3 Pro Preview 生成的前端页面截图。

体验

多模态能力强：这一点明显由于其他厂商。如果算上 Nano Banana 系列模型，生图效果更是行业标杆（尤其是 Nano Banana Pro）
前端能力强：主要体现在 Gemini 3 Pro，One-Shot 生成的前端页面效果远好于其他模型。例如 Google AI Studio Build 可以直接生成多文件的 React / Angular 前端界面
CoT 能力较弱：大概是因为 Gemini App 的提示词降智，以及 AI Studio 的模型降智。明显觉得 Gemini 3 刚发布时效果很好，但后续有削弱，可能是因为算力不足

降智

Gemini 有多个使用渠道：Google Gemini App、Google AI Studio 和 Vertex AI（付费）。

Gemini App 是用户端服务，但免费层级用量限制比较严格，而且在系统提示词中存在如下表述 If you already have all the information you need, complete the task and write the response.，本质上是减少推理步骤，从而节省成本（参考 Google 官方的神级提示词 / 自信的 Gemini）。

Google AI Studio 本意是给开发者测试使用，其用量限制宽松，可以免费使用很多模型，因此很多普通用户也开始直接访问该站点。对于免费用户，Google 采用相同的降智策略（尤其是在计算资源紧张时，例如 Gemini 3 Pro 发布前），与用户环境无关；付费用户基本不受影响。所以 10 月至 11 月明显感受到 AI Studio 中 Gemini 2.5 Pro 回复质量下降，理科问题经常出错。

DeepSeek

年初 DeepSeek-V3 / DeepSeek-R1 爆火，使用了一段时间，推理效果很好。

但后期很久没有大更新，以至于：

图片只支持 OCR，是个瞎子
不支持语音多模态，是个聋子
长期不更新，效果不太行了，是个傻子
幻觉率太高，是个疯子

但不可否认，它颠覆了全球大模型的竞争格局。

体验

推理效果（曾经）较好：最初 CoT 能力很好，甚至超过闭源模型；但后来将近一年没有大更新，很快被闭源模型超越
完全不支持多模态：用户侧的图片上传仅支持 OCR，本质上还是纯文本的模型
服务器繁忙：官方似乎并不重视 C 端体验，官方长期处于 Degraded Performance，但由于开放权重，第三方服务有不少提供支持