最新稀疏注意力框架

A comprehensive collection of phone data for research analysis.
Post Reply
rifat28dddd
Posts: 566
Joined: Fri Dec 27, 2024 12:12 pm

最新稀疏注意力框架

Post by rifat28dddd »

还有许多品牌,开始拿非遗给自己镀金。

星巴克在苏州寸土寸金的仓街开了一家非遗门店;迪奥在2024春夏系列的针织帽设计中,融入了中国绒花工艺;霸王茶姬致敬“烟花火龙”,打造相关宣传片和限定产品。



如今,不少非遗无疑成了财富密码,但这财富又不仅限于钱。

它也可以催生出一个产业,带动就业。

2020年,就有官方报告称:截至当年底,全国已设立非遗工坊超2000家,覆盖非遗项目达2206项,带动贫困地区50万人就业、帮助22万建档立卡贫困户实现脱贫。

很多时候,非遗还是一种特有的影响力。

投入于非遗的保护资金,是由文旅部支出,说明了官方也十分看重非遗蕴藏的软实力。

去年,“China Travel”的话题在外网爆火。来华旅游的外国游客,发现这里安全、干净、安静、有序,过去对中国的刻板印象被彻底颠覆,以至于他们当中还诞生了“中吹”人群。



极具特色的非遗也有同样的效果。

这方面,李子柒在外网的地位就是一个例子。李 华裔美国人数据 子柒回归后,老外表现得比国人更激动。不只是她,其他非遗博主的视频也不乏百万播放。仅在TikTok平台,非遗相关内容视频就有几百亿次播放。

让人感兴趣,收获了好感,中国的相关品牌和产品也能更好地杀向全球。

智东西2月19日报道,在DeepSeek公布NSA论文的5小时后,“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文,并声称在长文本上下文中实现了高效、动态的注意力选择,提升了大模型在处理超长序列任务时的效率和性能,同时保持了与全注意力机制相当的效果。



▲DeepSeek与月之暗面相隔5小时官宣论文(图源:X)

和NSA类似,MoBA也是一个稀疏注意力框架,旨在提高长文本处理效率。MoBA上下文长度最大可扩展到10M,而NSA最长是64k(刚刚,DeepSeek发新成果!梁文锋亲自参与,实习生挑大梁,显著加速AI训练推理)。值得关注的是,DeepSeek创始人梁文锋是NSA论文共同作者之一,MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。

月之暗面MoBA架构的主要特点包括对长上下文任务的适配,例如,在处理长达100万tokens的序列时,其速度比全注意力架构快6.5倍。在扩展到1000万tokens时,MoBA的计算时间与标准Flash Attention相比,实现16倍的加速比。
Post Reply