Microsoft Azure 是微软提供的云计算平台,其 AI 能力以云服务形式对外提供,覆盖大模型推理、模型训练与微调、检索增强生成(RAG)、内容安全以及相关的工程化管理能力。Azure 的 AI 服务并非单一产品,而是由多项独立服务组成,分别承担模型调用、数据检索、训练部署和合规控制等不同职责。
在计费方式上,Azure 的 AI 服务主要采用按量计费和预留容量两种模式,价格与所选模型、部署区域、调用规模以及服务形态密切相关。
Azure OpenAI Service 是 Azure 平台上最直接面向大模型应用的服务,用于在企业云环境中调用 OpenAI 系列模型能力。通过该服务,开发者可以使用文本生成、对话、多模态输入、向量生成以及图像生成等能力,并将其集成到自有系统中。
在实际使用中,该服务通常作为应用的“生成核心”,负责对用户输入进行推理并返回结果。计费方式以 Token 为单位,区分输入 Token 与输出 Token,不同模型和上下文长度对应不同单价。对于需要稳定吞吐和并发能力的场景,Azure 还提供预留吞吐(Provisioned Throughput)模式,按小时计费,用于锁定模型算力资源。
随着模型数量和使用场景的增加,Azure 将模型托管与管理能力集中到 Azure AI Foundry 体系中。该体系提供模型目录、托管推理接口以及与 Azure 权限和审计体系的集成能力,用于统一管理不同来源的基础模型。
在实际应用中,AI Foundry 通常承担“模型层”的角色,使模型调用方式标准化,并便于与 Agent、应用编排或其他 Azure 服务结合。不同模型的计费方式取决于模型本身,常见形式包括按 Token 计费或按实例、吞吐计费。
在大模型应用中,Azure AI Search 常用于构建检索增强生成(RAG)能力。该服务提供文档索引、全文搜索、向量检索以及语义相关性排序等功能,用于在企业数据中定位与问题相关的内容。
Azure AI Search 的计费方式与模型服务不同,它以 Search Unit(SU)作为容量单位,并按所选服务等级持续计费。容量配置通常与文档规模、查询并发和检索复杂度相关,因此在 RAG 场景中,该服务往往是长期运行的基础组件。
对于需要自行训练或微调模型的场景,Azure 提供 Azure Machine Learning 服务,用于管理训练任务、模型版本以及部署流程。该服务支持单机和分布式训练,并可将训练完成的模型直接部署为在线或批处理推理服务。
在计费层面,Azure Machine Learning 并不单独定义固定价格,而是基于底层计算资源进行计费,包括 CPU、GPU、存储和网络资源的使用时长和规模。因此,成本主要由所选机型、运行时间以及训练任务规模决定。
在大模型应用上线过程中,内容安全是常见的基础需求。Azure 提供 Azure AI Content Safety 服务,用于对模型输入和输出进行检测,覆盖文本和图像内容。该服务通常作为独立 API 使用,嵌入在生成流程前后。
计费方式以调用规模为基础,按文本记录数或图像数量计费,并提供免费层和标准付费层,用于不同规模的应用场景。
在实际部署中,Azure 的 AI 服务往往组合使用,不同服务的计费维度也存在明显差异:
服务主要计费维度
Azure OpenAI Service输入/输出 Token,或预留吞吐按小时
Azure AI Foundry依模型类型,按 Token 或实例
Azure AI SearchSearch Unit(SU),持续计费
Azure Machine Learning计算资源使用时长
Azure AI Content Safety文本记录数或图像数量