人工智能与大模型最新资讯与技术博客

重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口

此前，OpenAI的CEO说今年等算力不那么紧张的时候就可以让大家微调OpenAI的GPT模型，现在这个功能已经发布了！OpenAI发布了GPT-3.5 Turbo的微调接口，允许大家用自己的数据微调GPT-3.5模型！

2023/08/23 08:57:48 阅读 2275

GPT-3.5/GPT4/OpenAI/微调

最强SQL代码生成开源大模型发布：DefogAI开源超过gpt-3.5-turbo的SQL生成大模型SQLCoder，免费商用授权~

SQLCoder 是 Defog 团队推出的一款前沿的语言模型，专门用于将自然语言问题转化为 SQL 查询。这是一个拥有150亿参数的模型，其性能略微超过了 gpt-3.5-turbo 在自然语言到 SQL 生成任务上，并且显著地超越了所有流行的开源模型。更令人震惊的是，尽管 SQLCoder 的大小只有 text-davinci-003 的十分之一，但其性能却远超后者。

2023/08/22 11:22:41 阅读 4404

SQLCoder/编程大模型

AI2发布全新的大语言模型预训练数据集：包含3万亿tokens的大规模文本数据集AI2 Dolma，开源免费商用数据集~

Allen Institute for AI简称AI2，是2014年成立的一个非营利性研究组织，其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目，希望借助AI来推动科学、医学等领域的进步。此前也开源过大模型OLMo等。这次是该组织第一份发布AI数据集相关的项目，名称位Dolma，是一个包含了3万亿tokens的数据集，目前第一版本仅仅包含英文。

2023/08/21 21:49:30 阅读 1917

Dolma/开源数据集/数据集/预训练数据集

需要多少GPU显存才能运行预训练大语言模型？大语言模型参数规模与显存大小的关系估算方法~

开源大语言模型的发展非常迅速，其强大的能力也吸引了很多人的尝试与体验。尽管预训练大语言模型的使用并不复杂，但是，因为其对GPU资源的消耗很大，导致很多人并不能很好地运行加载模型，也做了很多浪费时间的工作。其中一个比较的的问题就是很多人并不知道自己的显卡支持多大参数规模的模型运行。本文将针对这个问题做一个非常简单的介绍和估算。

2023/08/18 10:48:24 阅读 8072

大模型/显存消耗/显存计算/预训练大模型

没有显卡也没关系！基于Google Colab免费GPU额度部署Stable Diffusion XL模型，可以生成4K的图！

Stable Diffusion XL是StabilityAI最新的开源模型。是目前业界流行的免费开源图像生成大模型。2023年4月份StabilityAI就宣布了SD XL的存在并在2023年7月26日开源。SD XL相比较此前的模型速度更快、提示词更短、生成的图像更加真实。但是，大多数人可能并没有实际运行过，感受过这个模型的魅力。在这篇博客中，我们给大家展示如何利用Google Colab的免费GPU资源，部署一个SD XL模型，并通过prompt生成一些图片。

2023/08/17 23:30:44 阅读 1907

StableDiffusionXL/StableDiffusion教程/免费GPU资源

吴恩达再开新课程！如何基于大语言模型实现更强大的语义搜索课程！

刚刚，吴恩达宣布deeplearning.ai 与 Cohere 合作推出了一个新课程：“Large Language Models with Semantic Search”。这个课程主要教授大家如何使用LLMs进行语义搜索，还提供了大量实践经验，来克服搜索结果和准确性等挑战。

2023/08/16 23:48:34 阅读 1470

LLM/吴恩达/搜索引擎/教程/语义检索

关于OpenAI最新的营收和成本数据估算：包括ChatGPT Plus付费用户数以及OpenAI的月度成本等

今天， Analytics India Magazine披露了说ChatGPT每天的运行成本70万美元左右，以及七月份ChatGPT月活人数也环比上月降低2亿，只剩15亿用户左右。而硅谷著名风投A16Z（Andreessen Horowitz）也透露了一些OpenAI的数据我们可以一起看看。

2023/08/14 20:25:08 阅读 2081

ChatGPT/OpenAI

又一个国产开源大模型发布：前腾讯创始人创业公司元象发布XVERSE-13B，超过Baichuan-13B，与ChatGLM2-12B齐平！但免费商用授权！

XVERSE-13B是元象开源的一个大语言模型，发布一周后就登顶HuggingFace流行趋势榜。该模型最大的特点是支持多语言，其中文和英文水平都十分优异，在评测结果上超过了Baichuan-13B，与ChatGLM2-12B差不多，不过ChatGLM2-12B是收费模型，而XVERSE-13B是免费商用授权！

2023/08/14 09:57:08 阅读 1362

LLM/XVERSE-13B/大模型

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！

WizardLM是微软联合北京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

2023/08/13 23:45:44 阅读 1483

WizardLM/WizardMath/数学推理大模型

流浪地球2的数字生命计划可能快实现了！HeyGen即将发布下一代AI真人视频生成技术，效果逼真到无法几乎分辨！

电影《流浪地球2》里面一个非常重要的情节就是数字生命计划。将人类的意识上传到计算机之后，可以通过AI技术让人类以数字化的形式在计算机中存活。而今天HeyGen官方宣布的即将推出的真人视频生成技术，可以根据真人的照片生成非常逼真的数字人视频，其动作、表情、声音等全部由AI技术生成，而几乎无法分辨是真人拍摄的视频还是AI生成的视频。

2023/08/10 22:26:31 阅读 1057

AI生成视频/数字人/真人视频生成

财大气粗！英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

AI Playground最近的LLaMA2、Stable Diffusion XL等模型的进展也让大家看到了最新最强大的模型的能力。但是，对于大多数人来说，这些模型的使用依然具有较高的门槛，除了硬件资源消耗大，本身的部署也不容易。而支撑这些模型的一个重要的硬件因素就是英伟达的显卡。显卡已经超越一般理财，变得越来越贵。因此，基于大模型的免费服务成本也很高，而今天，英伟达官方的NGC网站推出了新的几款可以免费使用的大模型，包括聊天大模型LLaMA2、文本生成图片大模型Stable Diffusion等，基于

2023/08/10 13:43:21 阅读 3352

StableDiffusionXL/免费资源

清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，chatglm2表现优秀，baichuan-7b排名倒数！

所谓AI Agent就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等，都是类似的例子。然而，并不是所有的AI Agent都有很好的表现，其核心还是取决于LLM的水平。尽管LLM已经在许多NLP任务上取得进步，但它们作为代理完成实际任务的能力缺乏系统的评估。清华大学KEG与数据挖掘小组（就是发布ChatGLM模型）发布了一个最新大模型AI Agent能力评测数据集，对当前大模型作为AI Agent的能力做了综合测评，结果十分有趣。

2023/08/09 21:28:38 阅读 4141

AgentBench/AIAgent/LLM

AutoGPT是如何让GPT-4自动帮你完成任务的——最火的AutoGPT原理解析！

最近几天AutoGPT十分火热，这是由开发者Significant Gravitas推出的项目。该项目可以根据你设置的目标，使用GPT-4自动帮你完成所有的任务。你只要提供OpenAI的API Key，保证里面有钱，那么它就可以根据你设定的目标，采用Google搜索、浏览网站、执行脚本等方式帮你完成目标。

2023/08/09 21:24:06 阅读 14409

AIAgent/AutoGPT/GPT-4

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

Embedding模型作为大语言模型（Large Language Model，LLM）的一个重要辅助，是很多LLM应用必不可少的部分。但是，现实中开源的Emebdding模型却很少。最近，北京智源人工智能研究院（BAAI）开源了BGE系列Embedding模型，不仅在MTEB排行榜中登顶冠军，还是免费商用授权的大模型，支持中文，应该可以满足相当多人的需要。

2023/08/08 20:26:46 阅读 3784

BGE/Embedding/Embedding大模型

MetaGPT技术全解析：另一个AutoGPT，一个可以替代小型软件开发团队的配备齐全的软件开发GPT，产品经理、系统设计、代码实现一条龙

AI Agent被很多人认为是未来大模型的发展方向。此前，OpenAI安全团队负责人人Lilian Weng也发布了一篇详细介绍AI自动代理机器人的博客，引起了很多人的关注。7月份发布的MetaGPT是一个全新的AI Agent项目，它基于GPT-4提供了专注于软件开发的自动代理框架，几乎可以理解为配备了产品经历、系统设计师、程序员的一个小团队，可以基于原始的需求直接生成最后的代码项目。本文主要介绍一下这个项目，并分析一下背后的实现方式。

2023/08/07 16:52:41 阅读 3851

AIAgent/AutoGPT/MetaGPT

大模型微调过程中的几个常见问题

文中整理和总结了几个关于开源大模型微调方面的问题，答案主要来自gpt4 + google，如果其中部分问题的答案不准确，烦劳指正（文中引用了外部资源链接，如果涉及版权问题，烦劳联系作者删除）

2023/08/04 12:02:50 阅读 1541

fine-tune/fp/gpu/lora/nvlink/P-tune/精度

总结一下截止2023年中旬全球主要厂商拥有的GPU数量以及训练GPT-3/LLaMA2所需要的GPU数量

GPU Utils最近总结了一个关于英伟达H100显卡在AI训练中的应用文章。里面透露总结了一些当前的主流厂商拥有的显卡数量以及一些模型训练所需的显卡数。文章主要描述的是H1000的供应与需求，也包含H100的性能描述，本文主要总结一下里面提到的显卡数相关统计供大家参考。

2023/08/04 11:11:48 阅读 2016

GPU/显卡数量

大模型领域最著名开源模型小羊驼Vicuna升级！Vicuna发布1.5版本，可以免费商用了！最高支持16K上下文！

Vicuna是开源领域最强最著名的大语言模型，是UC伯克利大学的研究人员联合其它几家研究机构共同推出的一系列基于LLaMA微调的大语言模型。这个系列的模型因为极其良好的表现以及官方提供的匿名评测而广受欢迎。今天，LM-SYS发布Vicuna 1.5版本，包含4个模型，全部基于LLaMA2微调，最高支持16K上下文输入，最重要的是基于LLaMA2的可商用授权协议！免费商用授权！

2023/08/03 14:14:54 阅读 3941

LLaMA2/vicuna/开源

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。然而，音频生成领域的进展却相对滞后。MetaAI这次再为开源贡献重磅产品：AudioCraft，一个支持多个音频生成模型的音频生成开发框架。

2023/08/03 11:45:06 阅读 869

AudioCraft/音频生成模型

OpenRouterAI：一个提供目前最优秀大模型API的网站，支持GPT-4 32k和Claude v2接口！

今天发现另一个可以替代官方API的接口网站，OpenRouter。尽管OpenAI和Anthropic的模型非常好，但是开发者使用需要申请API，但是，这两个服务的API申请非常麻烦。而OpenRouter目前提供了这些接口的付费调用，价格与官网完全一致，十分良心！

2023/07/31 21:26:15 阅读 25629

API/Claudev2/GPT4-32K/LLMAPI

超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

华为盘古大模型一直是国内大模型领域比较早的先行者，不过由于该模型并不针对个人开放，因此很少有人可以体验到该模型的效果。但是，盘古大模型一直在不断发展。2023年7月27日，华为发布最新的论文，展示了新一代盘古大模型的编程能力。该模型名字为PanGu-Coder2，论文的数据显示该模型目前超越所有开源编程大模型的效果，也超过GPT-3.5，接近GPT-4。

2023/07/29 00:02:54 阅读 2037

盘古大模型/编程大模型

Open ChatGPT：一个整合了GPT-4和多模态能力的ChatGTP服务商，免费可用，月租也很合理~

恰巧，我最近发现了一个网站——Open ChatGPT，网址是 https://open-chat-gpt.com/cn。简单来说，该网站调用 ChatGPT-4 (最新版) 的 API，让用户创建各种指定角色，服务于生活跟工作。不仅如此，还支持连ChatGPT官网都还没用上的AI画图功能。目前，相比其他网页各种限制使用次数的，这网站非常可贵在于可以无限次免费使用ChatGPT-4...

2023/07/28 22:52:42 阅读 1390

ChatGPT服务/OpenChatGPT

如何基于Gradio构建生成式AI的应用：吴恩达联合HuggingFace推出最新1小时短课

ChatGPT是属于生成式AI的一种应用。由于其强大的效果已经变成了当前最主流的一种AI方案。而构建生成式AI应用的一个重要方向是构建友好的web形态的demo让用户能快速体验。Gradio就是这样一种开源方案，也是当前最流行的一种快速构建AI Web应用的方案。昨天吴恩达的DeepLearningAI与HuggingFace共同推出了最新的一期短课程《Building Generative AI Applications with Gradio》，教大家如何使用Gradio快速构建生成式AI的应用。

2023/07/27 09:56:25 阅读 1147

Gradio/LLM/吴恩达/教程

CerebrasAI开源可以在iPhone上运行的30亿参数大模型：BTLM-3B-8K，免费可商用，支持最高8K上下文输入，仅需3GB显存

大模型的进展非常快，但是如何在移动端部署和使用依然是一个非常大的挑战。今天，CerebrasAI联合Opentensor一起开源了一个30亿参数规模的模型BTLM-3B-8K，官方宣称其性能接近70亿参数规模的大模型，但是运行的资源却很低，最低量化版本只需要不到4GB显存即可。

2023/07/25 17:10:34 阅读 1128

BTLM-3B-8K/大模型压缩/移动大模型

最新博客