首页
产品中心
风力发电机轴承
盾构机轴承及关键零部件
海工装备回转支承
其他回转支承
关于我们
公司简介
公司文化
新闻中心
联系我们
更能 相关话题
TOPIC
庄闲和游戏网 把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法
2026-01-17
针对大模型长文本处理难题,Transformer 架构的核心作者之一 Llion Jones 领导的研究团队开源了一项新技术DroPE。 不仅无需昂贵的长上下文训练,就能实现无缝零样本上下文扩展; 且用 DroPE 重新校准模型所需预训练预算不到 1%。 这项技术被网友调侃为" NoRoPE "(没有旋转位置编码)。 原因很简单,因为 DroPE 可以看作是一种丢弃位置嵌入来扩展上下文的方法。 那是怎么个"丢弃"法呢? 把位置嵌入当成临时训练工具 首先咱得先来搞懂什么是位置嵌入。 在 Tran
联系我们
共 1 页/1 条记录