跳到内容
返回

2025 年末回顾:大模型趋势与实测

技术趋势

MoE

今年发布的顶级模型(如 DeepSeek-V3、GPT-5)全面转向 MoE 架构。通过将专家模型细粒度化,模型在训练阶段可触达万亿级参数,但在推理时仅激活极小比例的参数簇,极大缓解显存压力并降低 Token 成本。

长上下文

2025 年年末,百万级 Token 上下文已成为中端模型标配。关键进展包括:

推理模型普及

2024 年推理模型已经出现,但在 2025 年走向普及。年初 DeepSeek-R1 的发布震撼全球,其通过大规模 RL 获得反思、纠错、验证能力,不再完全依赖 SFT 中的人类语料。后续 OpenAI o1 及后续版本,及其他厂商的推理模型继续加强该范式,尖端模型推理能力竞争激烈。可以明显感受到推理模型在数学推导、复杂代码重构等方面的提升。

多模态融合

多模态技术在 Transformer 底层实现了真正的统一。模型在预训练阶段即实现了图像、视频、音频和文本的混合输入,不再依赖外部「视觉编码器」将图像转化为中间 Token,实现了更深层级的跨模态理解。例如,基于 Transformer 的视频生成模型开始支持音频输出,视频质量提升显著;图像编辑模型(如 Nano Banana、Nano Banana Pro 和 Qwen Image Edit)支持多图输入,且细节保持度有提升;部分模型支持通过单个多模态模型处理音频输入输出(如 GPT-realtime),不再需要额外的 STT、TTS 模型。

智能体

随着推理能力、长上下文和工具调用机制的成熟,智能体成为一种更可控的系统架构。模型不再一边思考一边行动,而是先进行规划,再逐步执行,并在关键节点进行校验和纠错。

关于模型

一张图概括今年的大模型发展:

OpenAI、Anthropic、Gemini、Grok 相继发布性能领先的模型。

ChatGPT

失去了 Pandora 提供的稳定服务 后,ChatGPT 账号一直处于闲置状态。后来更换了纯净度尚可的机场订阅,重新登录了 ChatGPT。最初几天模型一度降智到 GPT-4o mini,完全无法日常使用。但几天后降智解除,可以正常使用 CoT 模型。在 Linux Do 跳蚤市场找到了一个稳定的 ChatGPT Team 提供方上车,以较低的成本用上了 OpenAI 的顶级模型及 Codex 额度。

体验

降智与风控

ChatGPT 的降智比较玄学。家宽、质量稍好的机场 IP 稳定后均能正常使用。但如果同一设备多账号登录就会同时降智;切换 IP 也会短时间降智。恢复时间不定。

11 月,使用的机场更换了落地服务器(滥用情况严重)导致降智。如果强制开启搜索,则表现正常为 GPT-5.1,其他情况都降智到 GPT-4o mini。换用台湾家宽解决。

Juice 测试 可以测试 ChatGPT CoT 模型的降智程度。后续针对更新模型有不同变体,但原理类似。

12 月,GPT-5.2 发布,Team 风控严重,拼车涨价。

Gemini

ChatGPT 刚出现的时候,很多人认为 OpenAI 会威胁到 Google 在搜索引擎的地位(尤其是 Bing 与 ChatGPT 结合提供 AI 搜索后)。Google 匆忙推出的 Bard 竞品饱受诟病,落后于当时的 GPT-4。但这种情况在 2024 年开始有所改观,2025 年更是达到业界顶流水平。但考虑到 Google 的硬件、数据、技术资源,今年的飞跃也是有迹可循:Google 以搜索引擎为主要业务,自然不缺乏训练数据;Google DeepMind(包括合并前的 DeepMind 和 Google Brain)长期进行人工智能前沿研究;Google 有自研的 TPU 用于机器学习,算力相对充足。

5 月,利用 Google One 学生优惠的漏洞,免费获取了 Google AI Pro 订阅(无需学生证明,无需信用卡)。由此,我开始使用 Gemini,体验到了几乎无限制的用量和 Deep Research 等所有高级功能。6 月,Google 发布 Gemini 2.5 Flash / Pro,正好赶上这次更新。然而,在 9 月,由于漏洞已被修复,无法继续更新学生订阅,从而失去了会员特权。

此后,转而使用 Google AI Studio 中的基础模型。虽然无法再享受 Deep Research 等高级功能,但其在模型选择、对话编辑和自定义参数等方面提供了更大的自由度,且用量限制极低。

同时,开始使用 NotebookLM 辅助学习研究。例如使用 NotebookLM 复习生物,可以直接上传电子版教材,要求整理思维导图,生成小测。这种复习方式明显比自行看教材复习高效不少。

11 月,Google 发布 Gemini 3 Pro 模型预览。前端能力极强,诸多领域再次回到 LMArena 榜首。以下是 Gemini 3 Pro Preview 生成的 Neobrutalism 风格 B.Duck 20 岁生日庆祝页面(Gemini 3 Pro Preview 生成,GPT-5.1 Codex 修改微调):

Gemini 3 Pro Preview 生成的前端页面截图。

体验

降智

Gemini 有多个使用渠道:Google Gemini AppGoogle AI StudioVertex AI(付费)。

Gemini App 是用户端服务,但免费层级用量限制比较严格,而且在系统提示词中存在如下表述 If you already have all the information you need, complete the task and write the response.,本质上是减少推理步骤,从而节省成本(参考 Google 官方的神级提示词 / 自信的 Gemini)。

Google AI Studio 本意是给开发者测试使用,其用量限制宽松,可以免费使用很多模型,因此很多普通用户也开始直接访问该站点。对于免费用户,Google 采用相同的降智策略(尤其是在计算资源紧张时,例如 Gemini 3 Pro 发布前),与用户环境无关;付费用户基本不受影响。所以 10 月至 11 月明显感受到 AI Studio 中 Gemini 2.5 Pro 回复质量下降,理科问题经常出错。

DeepSeek

年初 DeepSeek-V3 / DeepSeek-R1 爆火,使用了一段时间,推理效果很好。

但后期很久没有大更新,以至于:

但不可否认,它颠覆了全球大模型的竞争格局。

体验


分享文章:

上一篇
2026 上海春考数学
下一篇
潘多拉考古:那堵墙背后,我们曾呼吸过自由