Ge

Gemini 2.5 Flash-Lite-Preview-09-2025

聊天大模型

Gemini 2.5 Flash-Lite-Preview-09-2025

发布时间: 2025-09-25

171
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
1000K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

1000K tokens

最长输出结果

65536 tokens

模型类型

聊天大模型

发布时间

2025-09-25

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 0.1 美元/100 万tokens 0.4 美元/100 万tokens
图片 0.1 美元/100 万tokens --

Gemini 2.5 Flash-Lite-Preview-09-2025模型在各大评测榜单的评分

多模态理解

共 2 项评测
DocVQA normal
92
4 / 5
MMMU normal
72.70
12 / 17

综合评估

共 1 项评测
LiveBench thinking
58.46
46 / 51

发布机构

Gemini 2.5 Flash-Lite-Preview-09-2025模型解读

Gemini 2.5 Flash-Lite-Preview-09-2025 是 Gemini 模型家族中专注于超低延迟、高并发和最高性价比的一个子模型。它是为那些对延迟和成本有极其严格要求的任务而设计。

定位与特点

Flash-Lite 版本是在保持 Gemini 2.5 Flash 核心能力的基础上,通过进一步的优化来追求极致的效率,其核心定位是:

  1. 超低延迟: 它针对需要快速响应的应用场景进行了优化,能提供 Gemini 模型家族中最快的响应速度。
  2. 最高效率/性价比: 在成本控制方面表现出色,使其成为大规模、高并发部署的首选。
  3. 核心智能保持: 尽管追求效率,但它依然保持了进行推理、编码、函数调用和搜索增强等核心任务的能力。

主要改进亮点(针对 09-2025 预览版)

与 Gemini 2.5 Flash 09-2025 的更新类似,Flash-Lite 预览版也在效率方面进行了加强:

  • 更高的 Token 效率: 模型在开启“思考(Thinking)”功能时,能以更少的 Token 完成任务,进一步降低延迟和运行成本。
  • 持续的 Agentic 能力支持: 尽管它是“Lite”版本,但仍然支持工具调用(Tool Use)和 Agentic 工作流,使其适用于需要快速集成外部功能的轻量级智能体应用。

应用场景

Gemini 2.5 Flash-Lite 适用于以下需要“速度优先”的场景:

类别典型应用
实时交互快速响应的聊天机器人、客户服务系统中的即时回复。
大规模数据处理需要在极短时间内对海量数据进行分类、过滤或标签化的任务。
高并发 API 调用网站或应用后端对模型的 API 调用频率极高,对每秒事务数(TPS)要求严格。
轻量级智能体需要快速使用 Function Calling(函数调用)来执行简单但关键操作的 Agentic 任务。

如何使用

  • 预览模型 ID: 开发者可以使用 gemini-2.5-flash-lite-preview-09-2025 模型字符串在 Google AI Studio 和 Vertex AI 上进行测试。
  • 最新版本别名: Google 也为它推出了 -latest 别名 (gemini-flash-lite-latest),始终指向该系列最新的优化版本,方便开发者持续进行试验。

简而言之,Gemini 2.5 Flash-Lite 是为追求极致速度和最低成本的开发者提供的版本,它在效率上做到了最优,同时保持了执行核心智能任务的能力。

    关注DataLearnerAI公众号

    关注DataLearnerAI微信公众号,接受最新大模型资讯

    DataLearnerAI WeChat