最新稀疏注意力框架

rifat28dddd · Post by **rifat28dddd** » Mon Mar 17, 2025 5:30 am

还有许多品牌，开始拿非遗给自己镀金。

星巴克在苏州寸土寸金的仓街开了一家非遗门店；迪奥在2024春夏系列的针织帽设计中，融入了中国绒花工艺；霸王茶姬致敬“烟花火龙”，打造相关宣传片和限定产品。

如今，不少非遗无疑成了财富密码，但这财富又不仅限于钱。

它也可以催生出一个产业，带动就业。

2020年，就有官方报告称：截至当年底，全国已设立非遗工坊超2000家，覆盖非遗项目达2206项，带动贫困地区50万人就业、帮助22万建档立卡贫困户实现脱贫。

很多时候，非遗还是一种特有的影响力。

投入于非遗的保护资金，是由文旅部支出，说明了官方也十分看重非遗蕴藏的软实力。

去年，“China Travel”的话题在外网爆火。来华旅游的外国游客，发现这里安全、干净、安静、有序，过去对中国的刻板印象被彻底颠覆，以至于他们当中还诞生了“中吹”人群。

极具特色的非遗也有同样的效果。

这方面，李子柒在外网的地位就是一个例子。李华裔美国人数据子柒回归后，老外表现得比国人更激动。不只是她，其他非遗博主的视频也不乏百万播放。仅在TikTok平台，非遗相关内容视频就有几百亿次播放。

让人感兴趣，收获了好感，中国的相关品牌和产品也能更好地杀向全球。

智东西2月19日报道，在DeepSeek公布NSA论文的5小时后，“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文，并声称在长文本上下文中实现了高效、动态的注意力选择，提升了大模型在处理超长序列任务时的效率和性能，同时保持了与全注意力机制相当的效果。

▲DeepSeek与月之暗面相隔5小时官宣论文（图源：X）

和NSA类似，MoBA也是一个稀疏注意力框架，旨在提高长文本处理效率。MoBA上下文长度最大可扩展到10M，而NSA最长是64k（刚刚，DeepSeek发新成果！梁文锋亲自参与，实习生挑大梁，显著加速AI训练推理）。值得关注的是，DeepSeek创始人梁文锋是NSA论文共同作者之一，MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。

月之暗面MoBA架构的主要特点包括对长上下文任务的适配，例如，在处理长达100万tokens的序列时，其速度比全注意力架构快6.5倍。在扩展到1000万tokens时，MoBA的计算时间与标准Flash Attention相比，实现16倍的加速比。