五二小说网

手机浏览器扫描二维码访问

第165章 重启lr研究 一(第1页)

忙完了这些琐事,徐辰的生活重新回归平静。

徐辰的思绪,重新回到了那个被他暂时搁置的ai项目——laart(逻辑增强型大语言模型)。

在去德国之前,他利用学校计算中心的资源,跑通了laart模型的第一个核心模块——slrm(符號逻辑推理模块)。

那个demo虽然简陋,但却在clutrr逻辑推理数据集上,跑出了惊人的95.12%的准確率。

这个成绩,足以让任何一个ai研究者疯狂。

但徐辰並不满意。

“95%……还不够。”

徐辰坐在研究室里,盯著屏幕上那个复杂的网络结构图,眉头微蹙。

“这只是一个『拼凑出来的结果。

gumbel-box虽然解决了梯度截断的问题,但它在高维空间中的拓扑性质,依然不够完美。”

……

他想起了transformer架构的发展史。

2017年,googlebrain团队提出了transformer。

那是一个划时代的架构,但它並非完美无缺。

最初的transformer,使用的是绝对位置编码。

后来,人们发现这种编码方式在处理长文本时效果不佳,於是有了相对位置编码,再后来又有了旋转位置编码。

最初的attention机制,计算复杂度是o(n^2),隨著序列长度增加,计算量呈指数级爆炸。

於是,人们发明了稀疏注意力、线性注意力、闪电注意力……

每一个组件,都在不断的叠代中进化。

“transformer之所以强大,是因为它的每一个组件——注意力机制、前馈网络、归一化、激活函数——虽然单独拿出来都有明確的数学定义,但当它们被堆叠成几百层、拥有几千亿参数后,它们之间的相互作用,会產生极度复杂的非线性动力学。”

“这种动力学,目前还没有任何数学工具能够精確预测。”

“所以,ai领域才会有那么多『炼丹师。

大家都在试,都在猜,都在赌。”

事实上,transformer本身就是一个典型的“学术成果”

在它诞生之初,虽然在机器翻译任务上取得了sota,但並没有人预料到它会成为后来大语言模型(llm)的基石。

它只是证明了“自注意力机制可以替代循环神经网络(rnn)”

这条路是走得通的。

真正让transformer爆发威力的,是后来openai的gpt系列、谷歌的bert系列,以及无数工程师在海量数据和算力上的疯狂堆叠与调优。

是工业界的工程化能力,將这个学术上的“好点子”

,变成了改变世界的“核武器”

热门小说推荐
青梅有点甜:哥哥,轻轻宠

青梅有点甜:哥哥,轻轻宠

五岁那年,水嫩嫩被十一岁的顾墨宸从人贩子手中带回了家。哥哥,救命之恩当以身相许,你救了我,以后我就是你的妻子了。水嫩嫩一本正经的说道。顾墨宸他能将这小丫头扔回人贩子手里吗?哥哥,你放心,虽然...

钻石王牌之强棒驾到

钻石王牌之强棒驾到

白色的小球,好像利箭,飞射而至。打击区上,男孩高高举起自己手中的球棒,迎着飞来的棒球,呼啸而出。这是一个棒球男孩,逐梦甲子园的故事!这也是一个替补投手,在高中迎来新生的故事!...

李白之前世今生

李白之前世今生

作品讲述一代诗仙李白,在超级月亮灵猫助攻的作用下,重生还阳,化身演艺圈新人李慕白,闯荡美丽新世界的故事。主人公的人生经历跌宕起伏,充满传奇色彩,与大唐第一才子如出一辙,跨越历史的尘埃遥相辉映。文章不仅仅是李慕白个人的成长史,奋斗史,蜕变史,更对娱乐圈的种种乱象进行了抨击与讽刺,与此同时,将这位伟大爱国诗人的人生轨迹千古文章穿插其间,娓娓道来。侠之大者,为国为民,李白前世仗剑走天涯,斗酒诗百篇,今世依然可以事了拂衣去,深藏身与名...

从超级马里奥开始稳居幕后

从超级马里奥开始稳居幕后

从超级马里奥开始稳居幕后又名从现在起,我将与全世界玩家为敌疯狂的游戏爱好者赵牧发现自己电脑中出现了一款新的游戏,在这个游戏中他将扮演其他经典游戏的最终boss,通过改造游戏场景怪物强度等等来阻挠其他玩家通关。而他的第一个挑战,便是大家都很熟悉的游戏超级马里奥一代...

嫁国舅

嫁国舅

李云珠是勋贵圈公认的美人,骄纵恣意,忍不得半点委屈。小国舅曹绍做梦都想娶她,可惜长辈变了主意。云珠,是我无能,负了你。哦。李云珠对曹绍并无多深情分,唯独咽不下这口气。这时,大国舅曹勋回京了。他少时有言,不收边关不成家。而今,大国舅爷三十功成,威武挺拔。李云珠行了,就嫁他!女主娇纵,男主腹黑,均非完美人设。年龄差十二岁。内容标签情有独钟甜文轻松主角李云珠,曹勋┃配角┃其它一句话简介国舅爷与小夫人的婚后恋立意真心换真心...

每日热搜小说推荐