第一百二十六章 老不正经杰姆斯?(2 / 4)

投票推荐 加入书签 留言反馈

  好吧,苏飞总算知道这个有着重大成果的海报却无人问津的原因了,敢情您这是瞒着导师来的?
  偷了他邀请函进来的么?
  “稍等一会儿,马上就好。”
  小哥拿着黑色记号笔在白板上写写画画,
  这位小哥的言行吸引到了不少人的目光,他那自信且流畅的书写动作,让苏飞也觉得是不是真是一个特立独行的天才。
  怀着一丝期待和一丝好奇,苏飞认真地看着这位小哥的模型结构和证明过程。
  简而言之就是疯狂做减法。
  变形金刚由六个编码器和六个解码器组成,每个编码器和解码器里又分为多头注意力层、归一化层和线性层等等,这位小哥直接把六个解码器全砍了,编码器也砍了五个,剩余的一编码器里把里边各层也砍了好几个……
  emmmm……虽然你说你的想法很简单,但这也简单得太过分了……
  苏飞终于忍不住了:“冒昧地问一句,你做过实验么?”
  “实验?噢,bro,为了赶这次acl,我加班加点,实在没时间,但我保证我的这个结构是有效的,因为经典的elmo预训练模型也是这种简单的单层结构!”
  我特么……苏飞差点吐血,我的elmo的确也是疯狂做减法,但elmo模型和注意力机制有个毛线关系?
  敢情这位就是把elmo模型抄一半,再把变形金刚抄一半,组合成自己的论文?
  特么的!抄的左一篇右一篇全是我的论文!
  “或许你不了解变形金刚的设计意义,之所以这样重复性地叠加编码器和解码器是为了获取更高层次的特征,这个是由作者本人多次实践得出的结论,大幅度削减这些结构会让训练结果非常不稳定,elmo的单层结构是因为作者在建模之初只有一个命名体识别任务,不需要提取更高级的特征向量……”
  换而言之,这俩模型一人一半的结果就和大量水遇上活泼金属直接剧烈爆炸一样。
  围着这位小哥的懂行的学者也不禁点了点头,苏飞说的也是把变形金刚预训练化的难点,当然,大部分不做这一块的学者或者一些纯粹跟着导师来参观的路人就不太理解了。
  “bro,你的说法太武断了,elmo没有这么脆弱,变形金刚也没有那么复杂。”小哥眉头一挑,说道:“在我看来,没有什么比elmo和变形金刚更合适的了,这一点连创造他们的作者本人都没有理解透彻,只能为他感到多么遗憾。”
  苏飞耸了耸肩,行吧,你说啥就是啥,俺也懒得反驳了,纯属浪费时间。
  正当苏飞想要随意敷衍两句就走人的时候,一个本来在围观的白人老外走到了自己面前,一脸惊异地看着自己。
  “fei su?”
  嗯?
  苏飞疑惑地看着眼前的这个一身休闲服的老外,大约四五十岁的年纪,头发却是一个爆炸头,看上去有些老不正经。
  “您好?”
  苏飞礼貌地打着招呼。
  “我之前有看过参会者的照片……你是那个变形金刚和elmo的原作者,苏飞?”
  这看上去老不正经教授的一句话让台上正津津乐道的韩国小哥动作一僵,直接凝固在当场。
  随后,苏飞轻轻的点头承认,更是让韩国小哥一哆嗦,记号笔直接掉到了地上。
  围观学者们眼神一亮,他们有些兴奋,变形金刚的贡献有目共睹,而创造这个模型的更是一个传奇——一个小小的本科生,亲眼见到这位天才,让学者们多少有些雀跃。
  而且,如果能和这位天才好好交流交流,说不定就能抓住一缕不错的灵感。 ↑返回顶部↑

章节目录