人工智能与大模型最新资讯与技术博客

智谱AI开源多模态推理大模型GLM-4.1V-Thinking：90亿参数，基于强化学习技术，带推理能力，多模态理解能力接近720亿的Qwen2.5-VL-72B，免费商用授权

GLM-4.1V-Thinking是智谱AI（Zhipu AI）与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代，而是通过一个以“推理为中心”的全新训练框架，旨在将多模态模型的能力从基础的视觉感知，推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

2025/07/02 21:11:34 阅读 501

GLM/多模态大模型/多模态推理大模型/智谱AI

Ai2发布全新评测基准SciArena：为科学文献任务而生的大模型评测新基准，o3大幅领先所有大模型

Ai2近日发布的全新评测平台——SciArena，为这一痛点带来了创新解法。此次产品不仅继承了“人类众包对比评测”的理念，更结合科学问题的独特复杂性，构建了开放、透明且可迭代的模型评测生态。

2025/07/02 21:06:29 阅读 279

SciArena/大模型科研评测/大模型评测

华为开源2个Pangu大模型：分别是MoE架构，720亿总参数，160亿激活参数的Pangu Pro MoE以及Pangu Embedded，评测结果略超同级别的Qwen3

盘古大模型是华为自研的大语言模型，基于华为的硬件和技术栈进行训练。此前一直被认为是国产技术占比很高的国产大模型。今天，华为开源了2个盘古大模型，分别是MoE架构的Pangu Pro MoE模型以及70亿参数规模的Pangu Embedded模型。

2025/07/01 07:36:33 阅读 533

Pangu/Pangu大模型/华为/开源大模型/盘古大模型

重磅！百度文心一言开源，包含2个多模态大模型，4个大语言模型，最大参数量4240亿！完全免费商用授权！

今天，百度正式宣布开源其最新的旗舰级大模型系列——ERNIE 4.5。ERNIE 4.5系列模型当前包含2个多模态大模型，4个大语言模型及其不同变体的庞大家族，还区分了PyTorch版本和paddlepaddle版本，共23个模型，其核心采用了创新的异构多模态混合专家（MoE）架构，在提升多模态理解能力的同时，实现了文本处理性能的同步增强。每个版本的模型都开源了基座（Base）版本和后训练版本（不带Base）。

2025/06/30 13:44:47 阅读 582

ERINE/ERINE-4.5/开源大模型

阿里达摩院正式发布了全新的Qwen VLo大模型：全新一代理解与生成合一的多模态大模型

2025年6月26日，阿里达摩院正式发布了全新的Qwen VLo大模型。这是继QwenVL和Qwen2.5 VL后，阿里在多模态大模型领域又一具有里程碑意义的创新。Qwen VLo是一款统一的多模态理解与生成模型，不仅具备深度理解图片与文本内容的能力，更能基于这种理解实现高质量和高度一致的图像生成与编辑，真正跨越了“感知”与“创造”的界限。

2025/06/30 00:12:48 阅读 366

QwenVLo

大模型可以运营自动售货机吗？Anthropic的Project Vend实验：Claude能成功经营一家小店吗？答案是亏损严重还会免费赠送商品！

昨天，Anthropic公布了一项引人注目的实验——Project Vend。他们让旗下的大模型Claude Sonnet 3.7在一个真实的办公环境中，自主经营一家小型自动化商店，为期约一个月。这个实验的目标是探索，在不久的将来，AI模型在真实经济体中自主运行任务的可行性、潜在的成功模式以及那些出人意料的失败方式。实验结果非常强大，也充满了令人深思的细节！

2025/06/28 08:58:33 阅读 498

Anthropic/Claude/大模型应用

腾讯开源Hunyuan-A13B大模型：MoE架构，混合推理（支持直接回复和带推理过程后回复），原WizardLM团队打造，评测结果超Qwen2.5-72B，接近Qwen3-A22B，但参数量只有一半

腾讯发布并开源了其混元大模型系列的新成员Hunyuan-A13B。该模型定位为一个基于细粒度专家混合（MoE）架构的大语言模型。其主要特点是高效率和可扩展性，旨在为开发者和研究人员，特别是在资源受限的环境中，提供高级推理和通用应用能力。Hunyuan-A13B是由原来的微软的WizardLM团队成员打造，评测结果超Qwen2.5-72B和Qwen3-A22B

2025/06/27 17:39:57 阅读 702

Hunyuan/Hunyuan-A13B/混元大模型

Google开源多模态大模型Gemma3n的正式版：重新定义端侧AI的多模态能力，10B（100亿）参数以下最强多模态大模型，一个月前的预览版正式转正

继Gemma系列模型发布并迅速形成超过1.6亿次下载的繁荣生态后，Google再次推出了其在端侧AI领域的重磅力作——Gemma 3n。这款模型并非一次简单的迭代，而是基于全新的移动优先（mobile-first）架构，旨在为开发者提供前所未有的设备端多模态处理能力。Gemma 3n的定位是成为一款高效、强大且灵活的开源模型，直接与设备端AI领域的其他先进模型（如Phi-4、Llama系列的小参数版本）竞争，其核心特性在于原生支持图像、音频、视频和文本输入。

2025/06/27 09:08:40 阅读 571

Gemm3n/Gemma系列/Google/多模态大模型

Gemini CLI: Google发布的开源AI智能体，将Gemini 2.5 Pro直接带入你的终端，每天可以免费使用1000次Gemini 2.5 Pro！

今天，Google为全球开发者社区带来了一款激动人心的新工具——**Gemini CLI**。这是一款免费、开源的AI智能体，它将Google当前最强大的模型Gemini 2.5 Pro的能力，直接集成到了开发者最熟悉的命令行界面（CLI）中。对于那些视终端为“家”的开发者来说，这无疑是一个重大的升级。它不仅擅长编码，更是一个可以处理内容生成、问题解决、深度研究和任务管理的多功能本地实用工具。它的发布，旨在为个人开发者提供前所未有的便捷AI体验，非常强大！

2025/06/26 08:46:37 阅读 847

ClaudeCode/GeminiCLI/命令行AI

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B？Qwen3-72B还会发布吗？NO！

Qwen3 是阿里于 2025 年 6 月开源的新一代大模型系列，共发布了 8 个不同参数规模的模型，覆盖从 6 亿到 2350 亿参数的范围，融合了稠密模型和 MoE 架构。值得注意的是，此次未包含此前广受关注的 Qwen-72B 稠密模型版本，阿里表示从 Qwen3 起，超过 30B 参数的模型将统一采用 MoE 架构以优化性能和效率。

2025/06/18 16:23:24 阅读 1308

Qwen/Qwen2.572B/Qwen3/千问大模型

Google发布全新Gemini 2.5 Flash Lite：极致速度与性价比的轻量级新选择，实测生成速度最高可超过400 tokens/每秒，能力喜人！堪称甜品级大模型！

今天，Google发布Gemini 2.5 Flash Lite。这是一款专为追求极致速度、超低延迟和高性价比场景打造的轻量级模型。它的发布标志着 Google 正在将旗舰模型的先进能力（如百万级上下文、原生多模态、工具调用等）逐步下放到更轻量、更经济的模型层级。根据 DataLearnerAI 的实测，这款模型的生成速度最高可达 400 tokens/秒，即使在输入达到 18K tokens 的情况下，也依然可以维持在 160+ tokens/秒的性能表现，令人惊喜。

2025/06/18 11:51:32 阅读 610

Gemini2.5/Gemini2.5FlashLite/Google

MiniMaxAI开源全球推理长度最长的推理大模型MiniMax-M1：100万tokens输入，最高支持80K的推理长度

MiniMaxAI于2025年6月17日正式发布了其新一代大模型——MiniMax-M1。MiniMax-M1的核心亮点在于结合了混合专家（MoE）架构和创新的闪电注意力（Lightning Attention）机制。MiniMax-M1不仅原生支持高达100万Token的上下文长度，推理的tokens也支持最高80K，是当前支持的最多推理长度的大模型。此外，MiniMax-M1在计算效率上也很高，例如在生成10万Token时，其FLOPs消耗仅为DeepSeek R1的25%！

2025/06/17 23:49:56 阅读 588

MiniMax/MiniMax-M1/超长上下文模型

MiniMax-M1与其它模型在不同评测上的对比结果

2025/06/17 13:52:07 阅读 337

法国人工智能初创企业MistralAI发布首个推理模型Magistral：纯RL训练，多语言能力出色，推理速度很快，Magistral Small (24B)版本免费开源，但面对Qwen3和DeepSeek稍显乏力

Mistral AI今天发布了其首个专注于推理能力的系列模型——**Magistral**。这次发布包含两个核心模型：旗舰模型`Magistral Medium`和已开源的`Magistral Small (24B)`。最引人注目的亮点是，Mistral展示了其自研的强化学习（RL）pipeline能够从头开始，仅通过RL训练就将基础模型的推理能力提升到业界顶尖水平，而无需依赖任何其他预先存在的推理模型进行数据蒸馏。这套技术栈非常强大！

2025/06/11 22:45:43 阅读 424

Magistral/Mistral/推理大模型

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

OpenAI 正式发布了其最新模型 OpenAI o3-pro，这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计，其核心亮点在于极致的可靠性和准确性，尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“4/4可靠性”评测标准，o3-pro 的性能远超前代，OpenAI官方强调o3-pro在处理高难度、高风险任务的能力上实现了质的飞跃。

2025/06/11 08:57:28 阅读 437

GPT/o3-pro/OpenAI/推理大模型

向量大模型新选择，阿里开源向量大模型Qwen-Embedding和重排序大模型Qwen-Reranker，开源向量检索能力第一名！完全免费开源。

阿里巴巴Qwen团队发布了全新的Qwen3 Embedding系列模型，这是一套基于Qwen3基础模型构建的专用文本向量与重排（Reranking）模型。该系列模型凭借Qwen3强大的多语言理解能力，在多项文本向量与重排任务的Benchmark上达到了SOTA水平，其中8B尺寸的向量模型在MTEB多语言排行榜上排名第一。Qwen3 Reranker模型在多个评测基准上同样大幅超越了现有的主流开源竞品。

2025/06/08 22:01:38 阅读 996

Qwen/Qwen-Embedding/向量大模型/重排序大模型

介绍 AIME 2025：评估大型语言模型高级数学推理能力的基准

随着大语言模型（LLM）的发展越来越快，我们需要更好的方法来评估它们到底有多“聪明”，特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具，它专门用来测试当前 AI 在高等数学推理方面的真实水平。

2025/06/08 21:00:56 阅读 1726

AIME/AIME2025/大模型评测/大模型评测基准/评测基准

最近很火的基于人工智能（AI）的vibe coding是什么？它和传统软件编码之间有什么区别？

“Vibe Coding”（氛围编程）是一种新兴的编程范式，强调通过自然语言与人工智能（AI）协作开发软件。该概念由前 OpenAI 研究员 Andrej Karpathy 于 2025 年提出，旨在让开发者沉浸于创作氛围中，利用 AI 的能力，将自然语言描述转化为实际源代码，从而简化编程过程。

2025/06/08 20:56:21 阅读 473

AI应用/AI编程/VibeCoding/大模型编程

Anthropic发布Claude4，全球最强编程大模型，大幅提升AI Agent系统所需的各项能力，最长可以7小时连续工作，持续工作、工具使用、记忆使用方面大幅提升

2025年5月23日，Anthropic发布了新一代大语言模型Claude 4系列，包括Claude Opus 4和Claude Sonnet 4两个版本。Anthropic的官方博客强调Claude Opus 4是当前全球最强的编程大模型，与传统聚焦于文本生成和知识问答的模型不同，Claude 4明确定位为任务执行引擎和AI Agent系统的核心组件。这次发布不仅仅是性能参数的提升，更代表了Anthropic认为AI模型从"对话助手"向"自主工作伙伴"的根本性转变。

2025/05/25 14:37:31 阅读 666

Anthropic/Claude4/ClaudeOpus4/ClaudeSonnet4

MMMU基准：多模态多学科复杂推理能力的权威评估体系

大规模多学科多模态理解与推理基准（MMMU）于2023年11月推出，是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同，MMMU强调跨多个领域的先进感知和推理，旨在衡量朝专家级人工智能通用智能（AGI）的进展。

2025/05/05 21:48:00 阅读 678

MMMU/多模态评测/大模型多模态能力/大模型评测/大模型评测基准

微软开源140亿参数规模的Phi-4推理版本大模型：多项评测结果超过OpenAI o1-mini，单张4090可运行，完全免费开源

微软发布了全新的Phi-4推理模型系列，是小型语言模型(SLM)在复杂推理能力上的一种新的尝试。本次发布包含三个不同规模和性能的推理模型，分别是Phi-4-reasoning（140亿参数）、Phi-4-reasoning-plus（增强版140亿参数）和Phi-4-Mini-Reasoning（38亿参数）。这三款模型尽管参数规模远小于当前主流大型语言模型，却在多项推理基准测试中展现出与甚至超越大型模型的能力。

2025/05/01 22:11:00 阅读 542

Phi-4/Phi-4-reasoning/phi系列/微软/推理大模型

DeepSeekAI开源第二代数学理论证明大模型DeepSeek-Prover-V2：让AI帮助数学家证明数学理论！

就在刚才，DeepSeek-AI发布了其新一代自动定理证明模型 **DeepSeek-Prover-V2**。尽管官方暂未公开详细报告，但从其前代模型 **DeepSeek-Prover-V1.5** 的技术细节，以及去年底发布的通用推理模型 DeepSeek-R1 的进展来看，V2 很可能在多个关键能力上取得了实质性提升。

2025/04/30 22:12:22 阅读 483

DeepSeek/DeepSeek-Prover-V2/DeepSeekAI

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

阿里巴巴刚刚开源了第三代千问大模型，Qwen3系列包含了8个不同参数规模的大模型，最大达到2350亿参数规模，最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本，即Qwen3可以根据输入问题的情况自动选择是否进行推理。

2025/04/29 08:59:57 阅读 1505

Qwen3/Qwen3-0.6B/Qwen3-30B-A3B/千问大模型/阿里巴巴

谷歌发布新一代大模型Gemini 2.5 Flash，成本、速度和性能的最优均衡，同时支持推理和非推理模式，评测结果超Sonnet 3.7

Gemini系列是Google的大模型品牌，2025年3月25日，Google发布了Gemini 2.5 Pro版本，这是谷歌发布的Gemini 2.5系列的第一个模型，参数规模较大，但是在多项评测结果上获得了全球最优的效果，Gemini 2.5 Pro成本比较高，时延也比较大，20天之后，谷歌又发布了Gemini 2.5 Flash模型，是性能、成本和效果的最佳均衡模型。

2025/04/21 13:21:24 阅读 874

Gemini/Gemini2.5/Gemini2.5Flash/Google大模型/谷歌大模型

最新博客