常见问答

您的位置: 首页 > 江南官网登录入口 > 常见问答

最强LLaMA忽然来袭只改一个超参数完结上下文32万token

发布日期:2024-03-21 来源:常见问答

  和竞争对手比较,在指令微调MMLU (5-shot)等测验集上,体现逾越ChatGPT。

  要知道,这些比照版别中,LLaMA 2 Long运用的最大版别也只要70B,远小于其他大模型。

  也有人觉得,这才是最近Meta发布会的最大新闻啊,比Meta版ChatGPT要更令人兴奋。

  论文介绍,LLaMA 2 Long运用了4000亿token语料加持下,并进行方位编码修正。

  二是架构上,与LLaMA 2坚持不变,但对方位编码进行了一个十分小的必要修正,以此完结高达3.2亿token的上下文窗口支撑。

  它是现在大模型中使用最广的一种相对方位编码,经过旋转矩阵来完结方位编码的外推。

  本质上来说,RoPE便是将表明单词、数字等信息的token embeddings映射到3D图表上,给出它们相关于其他token的方位——即便在旋转时也如此。

  这就能够使模型发生精确且有用的呼应,并且比其他办法需求的信息更少,因而占用的核算存储也更小。

  在此,Meta的研讨人员经过对70亿规划的LLaMA 2进行试验,确认了LLaMA 2中的RoPE办法的一个要害约束:

  这一改动马上见效,缩小了RoPE对远端token的衰减效应,并且在扩展LLAMA的上下文长度上优于一项相似的名为“方位插值”的办法(如下图所示,RoPE PI,衰减效果较为“隐含”)。

  Ps. 图中RoPE表明基线办法,RoPE ABF为Meta此次创造的新办法,xPos是另一种使用了该办法的旋转编码变体。

  一个问题是,经过上面这个可视化成果,Meta观察到RoPE在长程区域呈现了较大的“振动”,这关于言语建模来说或许不是个好音讯。

  不过,经过陈述几种办法在长序列困惑度和FIRST-SENTENCE-RETRIEVAL两个使命上的体现来看,问题不大。

  并且,尤其在后者使命上,他们提出的RoPE ABF是仅有一个能够从始至终坚持功能的变体。

  在附录中,Meta还经过可视化为螺旋图这一很风趣的办法,将RoPE ABF与RoPE PI的差异进行了理论剖析。

  成果是,与RoPE PI比较,RoPE ABF的优势大多数体现在它能以更大的粒度分配嵌入向量(the embedded vectors),从而使模型更简单区别方位。

  此外,他们还观察到,嵌入向量之间的相对间隔既对RoPE PI的要害参数有线性依赖性,也对RoPE ABF的要害参数也有对数依赖性。

  终究,LLaMA 2 Long凭借着这一改动,达成了3.2万的上下文token,并经过长下文接连预练习的一起效果,获得了最初所示的好成绩:

  除了全面逾越LLaMA 2、在特定使命上逾越Claude 2和ChatGPT,Meta也给出了它和一些开源长下文模型的比照。

  值得一提的是,这个最新的版别,是用LLaMA2生成的文本内容来进行练习的。

  官方会不会正式对外发布这一版别,现在还没有更清晰的音讯,模型的网址也还没有找到。

  而在此之前,已经有非官方版别完结了3.2万token上下文,也是开源可商用。

  研讨团队提出了一种称为“切断(truncation)”的办法,对原始RoPE编码进行改换。

  原标题:《最强LLaMA忽然来袭!只改一个超参数,完结上下文3.2万token,多个使命打败ChatGPT、Claude 2》

  本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。

江南官网登录入口

最强LLaMA忽然来袭只改一个超参数完结上下文32万token

  和竞争对手比较,在指令微调MMLU (5-shot)等测验集上,体现逾越ChatGPT。

  要知道,这些比照版别中,LLaMA 2 Long运用的最大版别也只要70B,远小于其他大模型。

  也有人觉得,这才是最近Meta发布会的最大新闻啊,比Meta版ChatGPT要更令人兴奋。

  论文介绍,LLaMA 2 Long运用了4000亿token语料加持下,并进行方位编码修正。

  二是架构上,与LLaMA 2坚持不变,但对方位编码进行了一个十分小的必要修正,以此完结高达3.2亿token的上下文窗口支撑。

  它是现在大模型中使用最广的一种相对方位编码,经过旋转矩阵来完结方位编码的外推。

  本质上来说,RoPE便是将表明单词、数字等信息的token embeddings映射到3D图表上,给出它们相关于其他token的方位——即便在旋转时也如此。

  这就能够使模型发生精确且有用的呼应,并且比其他办法需求的信息更少,因而占用的核算存储也更小。

  在此,Meta的研讨人员经过对70亿规划的LLaMA 2进行试验,确认了LLaMA 2中的RoPE办法的一个要害约束:

  这一改动马上见效,缩小了RoPE对远端token的衰减效应,并且在扩展LLAMA的上下文长度上优于一项相似的名为“方位插值”的办法(如下图所示,RoPE PI,衰减效果较为“隐含”)。

  Ps. 图中RoPE表明基线办法,RoPE ABF为Meta此次创造的新办法,xPos是另一种使用了该办法的旋转编码变体。

  一个问题是,经过上面这个可视化成果,Meta观察到RoPE在长程区域呈现了较大的“振动”,这关于言语建模来说或许不是个好音讯。

  不过,经过陈述几种办法在长序列困惑度和FIRST-SENTENCE-RETRIEVAL两个使命上的体现来看,问题不大。

  并且,尤其在后者使命上,他们提出的RoPE ABF是仅有一个能够从始至终坚持功能的变体。

  在附录中,Meta还经过可视化为螺旋图这一很风趣的办法,将RoPE ABF与RoPE PI的差异进行了理论剖析。

  成果是,与RoPE PI比较,RoPE ABF的优势大多数体现在它能以更大的粒度分配嵌入向量(the embedded vectors),从而使模型更简单区别方位。

  此外,他们还观察到,嵌入向量之间的相对间隔既对RoPE PI的要害参数有线性依赖性,也对RoPE ABF的要害参数也有对数依赖性。

  终究,LLaMA 2 Long凭借着这一改动,达成了3.2万的上下文token,并经过长下文接连预练习的一起效果,获得了最初所示的好成绩:

  除了全面逾越LLaMA 2、在特定使命上逾越Claude 2和ChatGPT,Meta也给出了它和一些开源长下文模型的比照。

  值得一提的是,这个最新的版别,是用LLaMA2生成的文本内容来进行练习的。

  官方会不会正式对外发布这一版别,现在还没有更清晰的音讯,模型的网址也还没有找到。

  而在此之前,已经有非官方版别完结了3.2万token上下文,也是开源可商用。

  研讨团队提出了一种称为“切断(truncation)”的办法,对原始RoPE编码进行改换。

  原标题:《最强LLaMA忽然来袭!只改一个超参数,完结上下文3.2万token,多个使命打败ChatGPT、Claude 2》

  本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。

X瞬干胶|ab胶|pur热熔胶|导电胶|硅胶|uv胶胶水生产厂家-欢迎使用江南全站App

截屏,微信识别二维码

微信号:sz-goel

(点击微信号复制,添加好友)

  打开微信

微信号已复制,请打开微信添加咨询详情!