人工智能与大模型最新资讯与技术博客

重磅！第二代ChatGLM发布！清华大学THUDM发布ChatGLM2-6B：更快更准，更低成本更长输入！

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日，清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B。

2023/06/25 22:45:14 阅读 6535

ChatGLM-6B/ChatGLM2-6B

语音模型的GPT时刻：MetaAI发布的基础语音大模型Voicebox简介及其模型说明

今天，MetaAI发布了一个新的语音处理领域的生成式大模型Voicebox，可以像GPT那样用生成式的方式处理语音（speech）数据的相关任务，包括语音编辑、跨风格语音生成等语音数据处理相关的很多任务。这可能就是语音处理领域的GPT时刻！

2023/06/17 21:27:04 阅读 2013

生成式模型/语音模型/音频大模型

一张图总结大语言模型的技术分类、现状和开源情况

4月26日，亚马逊联合其它高校科研人员发表了一篇关于如何使用ChatGPT完成下游论文。里面使用了一个非常直观明了的大语言模型进化图总结了目前当前大语言模型的技术架构分类和开源现状，十分受欢迎。因此，4月30日，作者再次更新这幅图，增加了更多的大语言模型。

2023/06/13 09:41:41 阅读 8922

LLM/大语言模型

国产开源大模型再添重要玩家：BAAI发布开源可商用大模型Aquila

BAAI全称北京智源人工智能研究院（Beijing Academy of Artificial Intelligence），是国内非常重要的一个人工智能研究机构。此前发布了悟道系列数据集和大模型。在最近，他们开源了一个全新的国产开源大语言模型Aquila系列模型。该模型基于大量的中英文数据集训练，是一个完全开源可商用国产大语言模型。

2023/06/13 08:25:14 阅读 1956

Aquila/国产大模型/大模型

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展，Cerebras新发布了一个超大规模的文本数据集SlimPajama，SlimPajama可以作为大语言模型的训练数据集，具有很高的质量。除了SlimPajama数据集外，Cerebras此次还开源了处理原始数据的脚本，包括去重和预处理部分。官方认为，这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:02 阅读 3317

大模型训练/大规模数据集

仅需一行代码即可微调大语言模型——LightningAI发布全新Python库Lit-Parrot

大模型微调依然是针对大量私有数据或者特定领域不可缺少的方法。就在前不久，LightningAI发布了一个轻量级大模型微调库Lit-Parrot，仅需一行代码即可微调当前开源大模型。

2023/06/08 23:22:01 阅读 1426

Fine-tuning/Lit-Parrot/大模型微调

截至目前最强的70亿参数大语言模型：开源可商用的RedPajam 7B完全版发布！

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日，TOGETHER在官方宣布该模型完成训练，经过测试，该模型目前超过所有7B规模的大模型，比LLaMA-7B和Falcon-7B的效果还要好！

2023/06/07 23:15:35 阅读 1149

RedPajama

OpenAI CEO详解今明两年GPT发展计划：10万美元部署私有ChatGPT、最高支持100万tokens、建立微调模型应用市场

前段时间，OpenAI的CEO Sam Altman与二十多位开发者一起聊了很多关于OpenAI的API和产品的规划问题。Sam Altman透露了一些非常重要的OpenAI的发展方向，包括GPT产品功能的未来规划等。目前这份原始博客内容已经应OpenAI的要求被删除，这里我们简单总结一下这些内容。

2023/06/04 16:19:04 阅读 2468

GPT-4/OpenAI

吴恩达宣布和OpenAI、LangChain、Lamini三家公司一起推出三门全新AI短视频课程：ChatGPT API、LangChain和Diffusion Models

今天，吴恩达在推特上宣布和OpenAI、LangChain以及Lamini三家公司共同推出了3门短视频课程，分别是《使用ChatGPT API构建系统》、《基于LangChain的大语言模型应用与开发》和《Diffusion模型是如何工作的》。三门课程都是1个小时的短视频课程，而且配有详细的Jupyter Notebook使用方法。

2023/06/01 23:27:32 阅读 1799

AI教程/吴恩达/生成式AI短课程

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

5月27日，OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE，OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化，支持中英文。根据官方的测试结果，其英文测试水平约等于LLaMA-13B，中文评测结果优秀。

2023/05/31 23:07:40 阅读 3082

CPM-Bee/中文大模型/国产大模型/大语言模型

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:36 阅读 3489

tokens/大语言模型/正则化/训练技术

开源界最新力作！230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放！

今天，一位年仅20岁的小哥willdepue 开源了230万arXiv论文的标题和摘要的embedding向量数据集，完全开源。该数据集包含截止2023年5月4日的所有arXiv上的论文标题和摘要的embedding结果，使用的是开源的Instructor XL抽取。未来将开放更多其它相关数据的embedding结果

2023/05/29 22:04:26 阅读 1488

embedding/开源/论文数据

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

昨天，HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型：Falcon-40B，引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日，Falcon-40B模型（400亿参数）在推理、理解等4项Open LLM Leaderloard任务上评价得分第一，超过了之前最强大的LLaMA-65B模型。

2023/05/27 22:11:32 阅读 2876

Falcon-40B/LLM/大语言模型

华盛顿大学提出QLoRA及开源预训练模型Guanaco：将650亿参数规模的大模型微调的显存需求从780G降低到48G！单张显卡可用！

前段时间，康奈尔大学开源了LLMTune框架（https://www.datalearner.com/blog/1051684078977779 ），这是一个可以在48G显存的显卡上微调650亿参数的LLaMA模型的框架，不过它们采用的方法是将650亿参数的LLaMA模型进行4bit量化之后进行微调的。今天华盛顿大学的NLP小组则提出了QLoRA方法，依然是支持在48G显存的显卡上微调650亿参数的LLaMA模型，不过根据论文的描述，基于QLoRA方法微调的模型结果性能基本没有损失！

2023/05/25 23:52:47 阅读 2524

fine-tuning/LoRA/QLoRA/大模型微调/模型压缩

让大语言模型为文本处理提提速：Scikit-learn与LLM的合体Scikit-LLM开源项目发布

虽然LLM在很多任务上很好用，但是实际应用中我们常见的文本分类、文本标注等工作目前却依然缺少一个可以利用LLM能力的好方法。LLM的强大并没有在工程落地上比肩传统的机器学习处理框架。上周，一个叫Scikit-LLM新的开源项目发布，将传统优秀的Scikit-learn框架与LLM结合，带来了LLM落地的新方法。

2023/05/24 23:19:40 阅读 864

LLM/Scikit-Learn/Scikit-LLM

MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的ASR模型：MMS

今天，Meta的首席AI科学家Yann LeCun在推特上宣布了MetaAI的最新研究成果：MMS，一个支持1107种语言的自动语音识别模型和语音合成模型，该模型自动语音识别的单词错误率只有OpenAI开源的Whisper的一半！但是支持的语言却有1107种，是Whisper的11倍！代码与预训练结果已开源，不过不可以商用哦~

2023/05/24 00:00:09 阅读 2096

ASR/MetaAI/MMS/TTS/语言识别

抛弃RLHF？MetaAI发布最新大语言模型训练方法：LIMA——仅使用Prompts-Response来微调大模型

MetaAI最近公布了一个新的大语言模型预训练方法（LIMA: Less Is More for Alignment）。它最大的特点是不使用ChatGPT那样的（Reinforcement Learning from Human Feedback，RLHF）方法进行对齐训练。而是利用1000个精选的prompts与response来对模型进行微调，但却表现出了极其强大的性能。能够从训练数据中的少数几个示例中学习遵循特定的响应格式，包括从规划旅行行程到推测关于交替历史的复杂查询。

2023/05/22 23:21:05 阅读 1492

LIMA/LLaMA/大模型微调

目前业界支持中文大语言模型开源和商用许可协议总结

目前，业界开源的大语言模型越来越多，性能也越来越强大。然而，这些开源模型大多数由国外的机构贡献，对于英文的支持没有任何问题。但是，对于中文的支持则是有好有坏。本文将基于主流的开源大模型进行分析，介绍当前支持中文的开源大模型，并对其使用方式和主要能力进行总结。

2023/05/21 22:45:14 阅读 8008

中文大模型/大模型

手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

ChatGLM-6B是清华大学知识工程和数据挖掘小组发布的一个类似ChatGPT的开源对话机器人，由于该模型是经过约1T标识符的中英文训练，且大部分都是中文，因此十分适合国内使用。本文将详细记录如何在Windows环境下基于GPU和CPU两种方式部署使用ChatGLM-6B，并说明如何规避其中的问题。

2023/05/21 17:14:02 阅读 41866

ChatGLM/VisualGLM/部署

个人网站申请免费ssl证书最靠谱的办法

如今，不支持https的网站基本都无法访问，https网站需要在服务端保存ssl证书才可以建立。这个原理本文不多说。目前，各大云服务厂商也提供ssl证书的发放和管理，但都是收费的。对于个人网站来说，基于第三方的服务申请免费证书其实是合适的。但是，国内申请证书并不好用。本文主要记录一个最简单的免费证书申请安装方法。

2023/05/21 15:08:40 阅读 1233

ssl证书

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

今天，THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型，支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片，解析图片内容。

2023/05/19 00:27:34 阅读 4877

ChatGLM-6B/VisualGLM-6B/图片理解/多模态模型

在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper：8GB显存即可针对你自己的数据建立ASR模型

德国的一位博士生开源了一个使用LoRA（Low Rank Adaptation）技术和PEFT（Parameter Efficient Fine Tuning）方法对Whisper模型进行高效微调的项目。可以让大家在消费级显卡（显存8GB）上对OpenAI开源的WhisperV2模型进行微调！

2023/05/17 23:08:02 阅读 3339

ASR/LoRA/PEFT/Whisper/微调

2023年4月业界发布的重要20多个AI模型总结：OpenAssistant、Segment Anything Model、StableLM、AudioGPT等

2022年11月底，OpenAI发布ChatGPT，2023年3月14日，GPT-4发布。这两个模型让全球感受到了AI的力量。而随着MetaAI开源著名的LLaMA，以及斯坦福大学提出Stanford Alpaca之后，业界开始有更多的AI模型发布。本文将对4月份发布的这些重要的模型做一个总结，并就其中部分重要的模型进行进一步介绍。

2023/05/17 20:32:40 阅读 2961

2023年4月份AI模型/AI模型月报

HuggingFace宣布在transformers库中引入首个RNN模型：RWKV，一个结合了RNN与Transformer双重优点的模型

RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说，RWKV是一个RNN架构的模型，但是可以像transformer一样高效训练。今天，HuggingFace官方宣布在transformers库中首次引入RNN这样的模型，足见RWKV模型的价值。

2023/05/15 23:11:38 阅读 2511

HuggingFace/RWKV/transformers

最新博客