最新AI大模型咨询与技术解读——来自DataLearnerAI

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

OpenAI 正式发布了其最新模型 OpenAI o3-pro，这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计，其核心亮点在于极致的可靠性和准确性，尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“4/4可靠性”评测标准，o3-pro 的性能远超前代，OpenAI官方强调o3-pro在处理高难度、高风险任务的能力上实现了质的飞跃。

2025/06/11 08:57:28 阅读 437

GPT/o3-pro/OpenAI/推理大模型

Anthropic发布Claude4，全球最强编程大模型，大幅提升AI Agent系统所需的各项能力，最长可以7小时连续工作，持续工作、工具使用、记忆使用方面大幅提升

2025年5月23日，Anthropic发布了新一代大语言模型Claude 4系列，包括Claude Opus 4和Claude Sonnet 4两个版本。Anthropic的官方博客强调Claude Opus 4是当前全球最强的编程大模型，与传统聚焦于文本生成和知识问答的模型不同，Claude 4明确定位为任务执行引擎和AI Agent系统的核心组件。这次发布不仅仅是性能参数的提升，更代表了Anthropic认为AI模型从"对话助手"向"自主工作伙伴"的根本性转变。

2025/05/25 14:37:31 阅读 666

Anthropic/Claude4/ClaudeOpus4/ClaudeSonnet4

微软开源140亿参数规模的Phi-4推理版本大模型：多项评测结果超过OpenAI o1-mini，单张4090可运行，完全免费开源

微软发布了全新的Phi-4推理模型系列，是小型语言模型(SLM)在复杂推理能力上的一种新的尝试。本次发布包含三个不同规模和性能的推理模型，分别是Phi-4-reasoning（140亿参数）、Phi-4-reasoning-plus（增强版140亿参数）和Phi-4-Mini-Reasoning（38亿参数）。这三款模型尽管参数规模远小于当前主流大型语言模型，却在多项推理基准测试中展现出与甚至超越大型模型的能力。

2025/05/01 22:11:00 阅读 542

Phi-4/Phi-4-reasoning/phi系列/微软/推理大模型

DeepSeekAI开源第二代数学理论证明大模型DeepSeek-Prover-V2：让AI帮助数学家证明数学理论！

就在刚才，DeepSeek-AI发布了其新一代自动定理证明模型 **DeepSeek-Prover-V2**。尽管官方暂未公开详细报告，但从其前代模型 **DeepSeek-Prover-V1.5** 的技术细节，以及去年底发布的通用推理模型 DeepSeek-R1 的进展来看，V2 很可能在多个关键能力上取得了实质性提升。

2025/04/30 22:12:22 阅读 483

DeepSeek/DeepSeek-Prover-V2/DeepSeekAI

重磅！MetaAI开源Llama4系列，全面进入MoE架构时代，本次发布Llama4 Scout和Llama4 Maverick，1000万上下文输入，170亿激活参数，不支持中文！

就在刚刚，MetaAI发布了全新一代Llama4大模型，Llama正式进入多模态和MoE架构时代。本次新发布的是Llama4中的2个模型分别是Llama4 Scout和Llama4 Maverick。这两个模型都是170亿激活参数，但是前者共16个专家，后者有128个专家，因此总的参数量分别达到了1090亿和4000亿！不过根据评测的情况看，即使是4000亿规模170亿激活的模型，也和DeepSeek V3.1（即DeepSeek V3 0324）版本差不多。

2025/04/06 08:41:47 阅读 588

Llama4/Llama4Behemoth/Llama4Maverick/Llama4Scout

大模型的多语言能力来自哪里？大模型是否有自己的内部语言？在英文数据集上学习到的知识可以用中文表达出来吗？

最近，Anthropic研究人员通过观察大模型内部运作机制发现了大模型内部可能存在一种与特定语言无关的内部共享区域，它可以把不同语种的输入，在同样的区域进行内部推理，并最终根据语种输出答案。这个现象让我们发现大模型本身理解语言的时候可能与人类类似，拥有高度抽象的内部表示，能够跨越多种语言统一相同的概念。

2025/03/30 18:41:00 阅读 700

Anthropic/Claude/大模型原理/大模型多语种

Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型，最高支持200万上下文，全模态输入，推理大模型，LMArena排名第一

Gemini 2.5 Pro是Google发布的一个新一代大模型，Gemini 2.5 Pro是一个推理大模型，在数学和编程方面有了非常强大的能力，该模型最高支持200万tokens的上下文输入，非常强大！

2025/03/26 08:12:06 阅读 1575

Gemini/Gemini2.5Pro/谷歌/谷歌大模型

腾讯发布全新推理大模型Hunyuan-T1：mamba与transformer结合的新架构，与业界模型对比评测结果不错，但是不开源

2025年3月21日，腾讯正式推出其全新大模型**Hunyuan-T1**，该模型基于此前发布的TurboS快速思维基座，首次采用**Hybrid-Transformer-Mamba混合专家架构（MoE）**，在推理效率、长文本处理及资源消耗优化等方面表现还不错。此外，这个新架构也使得Hunyuan-T1速度非常快，模型支持首字符1秒内响应，生成速度达60-80 token/秒，适用于实时交互场景。

2025/03/22 11:43:19 阅读 646

Hunyuan-T1/HunyuanTurboS/推理大模型

三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

2025年3月20日，OpenAI 推出了三款新模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts——标志着自动语音识别 (ASR) 和文本转语音 (TTS) 领域的重要进步。这些模型基于 GPT-4o 架构，旨在为开发人员和用户提高准确性、自定义能力和可访问性，与 OpenAI 对于代理式 AI 系统的更广泛愿景一致。本文提供了对每个模型、其能力、定价、可用性和竞争环境的详细审查，确保技术和非技术受众都能全面理解。

2025/03/21 13:18:49 阅读 1321

ASR/gpt-4o-transcribe/TTS/whisper

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50 阅读 690

MistralAI/MistralSmall3.1/多模态大模型/开源大模型

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

2025/03/17 14:10:25 阅读 611

ERNIE4.5/ERNIEX1/推理大模型/文心一言/文心大模型

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

Hunyuan大模型是腾讯训练的大模型品牌名，2022年4月份，某中文语言理解能力排行榜第一名就出现了Hunyuan模型，在2022年11月，Hunyuan大模型就有了1万亿参数的规模，即HunYuan-NLP 1T大模型（比ChatGPT还早发布）。但是最近2年，这个系列的模型几乎没有出现在公众视野上。而昨天（2025年3月10日），Hunyuan官方在X平台上宣布了旗下最新的Hunyuan Turbo S大模型，称其在多个评测基准上超越了GPT-4o的表现。

2025/03/11 22:51:48 阅读 642

HunyuanTurboS/混元大模型/腾讯大模型

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南。描述了二者的对比。本文将总结这份推理大模型最佳实践指南。

2025/03/05 12:53:44 阅读 950

DeepSeekR1/OpenAIo1/推理大模型/推理大模型提示词

Anthropic的Claude 4即将发布前新功能曝光：带有Thinking模式，且可以看到推理过程

最近，一些未公开但即将发布的内容被曝出，显示出Anthropic正在为其AI模型（Claude）推出一项名为Thinking的新功能。这一功能将极大提升AI在推理和决策时的透明度，允许用户查看AI的思考过程，并提供更长时间的推理分析，帮助用户更好地理解和验证AI的决策逻辑。

2025/03/05 12:51:57 阅读 983

Anthropic/Claude4/推理大模型

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06 阅读 375

AyaVision/CohereAI/多模态大模型

Anthropic发布Claude 3.7 Sonnet大模型，全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型，评测结果超DeepSeek R1，低于Grok3-Beta Reasoning，免费用户可用

2025年2月25日，Anthropic发布了Claude 3.7 Sonnet大模型，该模型是业界第一个同时支持标准输出和深度推理模式的单一大模型，各项评测相比较Claude Sonnet 3.5大幅提升。特别是代码能力进一步增强。

2025/02/25 14:25:56 阅读 741

Anthropic/Claude3.7/Claude3.7Sonnet/推理大模型

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

2025/02/19 21:40:31 阅读 433

SWE-Lancer/大模型评测/大模型评测基准

Grok3发布！马斯克旗下大模型企业xAI发布Grok3、Grok3-mini，支持Deep Research、语音交互和“思考”模式的推理大模型，推理模式评测结果全球最强

今天马斯克旗下的xAI公司发布了最新一代大语言模型Grok3，基于20万张GPU集群训练，各方面的提升都非常明显。在主流评测上都超过了现有的大模型。

2025/02/18 17:01:41 阅读 1259

Grok-3/Grok-3-mini/推理大模型

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

最近，随着DeepSeek R1的火爆，推理大模型也进入大众的视野。但是，相比较此前的GPT-4o，推理大模型的区别是什么？它适合什么样的任务？推理大模型是如何训练出来的？很多人并不了解。本文将详细解释推理大模型的核心内容。

2025/02/08 18:05:03 阅读 3489

DeepSeekR1/OpenAIo1/推理大模型/纯强化学习大模型

Google发布Gemini 2.0 Pro：MMLU Pro评测超过DeepSeek V3略低于DeepSeek R1，最高上下文长度支持200万tokens！开发者每天免费50次请求！

2025年2月5日，Google官方宣布Gemini 2.0 Pro版本上线，Gemini系列是谷歌最新一代大模型的品牌名称。Google最早在2024年12月中旬发布了Gemini 2.0系列的第一个模型Gemini 2.0 Flash，当时试用的人都普遍反应这个模型速度又快，结果友好，让Google摆脱了此前大模型很落后的印象。今天，Gemini 2.0 Pro上线，其能力更强。

2025/02/06 19:18:02 阅读 1094

Gemini/Gemini2.0/Gemini2.0Flash/Gemini2.0Pro

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

2025/02/06 08:13:31 阅读 2545

MMLU/MMLUPro/大模型评测/评测基准

20条关于DeepSeek的FAQ解释DeepSeek发布了什么样的模型？为什么大家如此关注这些发布的模型？他们真的绕过CUDA限制，打破了Nvidia的护城河了吗？

DeepSeekAI最近发布的几个模型，如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论，特别是低成本训练出高质量模型之后，引起了很多的争论。引起了大家对OpenAI、英伟达等公司未来的质疑。然而，对于DeepSeekAI的模型为什么引起了如此广泛的关注，以及大家讨论的核心内容是什么，很多人并不是很清楚。本文基于著名的独立科技行业分析师Ben Thompson的总结，配合DataLearnerAI的分析，为大家总结DeepSeek引起的全球讨论。

2025/02/02 17:33:13 阅读 1148

DeepSeekAI/DeepSeekR1/DeepSeekV3/OpenAIo1/推理大模型

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

2025/01/30 20:38:31 阅读 953

ArenaHard/ChatbotArena/大模型评测/评测基准

OpenAI开始提供大模型（GPT系列模型）的提示缓存（Prompt Caching）：GPT-4o系列模型输入价格下降一半，访问速度提升80%

在大模型的应用中，处理复杂请求往往伴随着较高的延迟和成本，尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题，特别是在长提示和高频交互的场景中，显得尤为突出。为了应对这一挑战，OpenAI 最近推出了 **提示缓存（Prompt Caching）** 功能。这项新技术通过缓存模型处理过的相同前缀部分，避免了重复计算，从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求，提示缓存能够显著提高效率，降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型，以及如何通过合理的提示结

2024/12/18 22:06:07 阅读 540

OpenAI/PromptCaching/大模型推理加速/提示缓存

最新博客