第一百二十八章 伯特的诞生(3 / 4)
  苏飞颇为认真地自言自语道。
想要把变形金刚做成预训练模型,那就必然要割舍一些功能,这一点苏飞倒是早有准备。
“但是如果要做预训练模型,如何才能让它训练词向量或者图向量本身……”
苏飞的笔一下子就顿住了。
这就是问题所在了,学会上也暂时没人提出相关理论……如果提出了这个相关的理论,那变形金刚的预训练化怕是已经被别人摘去了。
苏飞也不相信有人特么的能这么快。
苏飞猜测这个问题的解决方案大概率是和变形金刚的遮盖(mask)机制有关。
思路既然有了……不清楚过程的话,一张灵感激发卡!
苏飞现在可是豪横得很,1000积分的灵感激发卡那是眼睛也不眨一下。
苏飞毫不犹豫地使用了灵感激发卡,随着灵感激发卡的澹澹光芒涌入苏飞的脑海,他原本停滞下来的灵感就如同脱缰的野马一般,庞大的信息流在他的脑海中炸裂开。
但是现在有着24点精神力的苏飞,没有以往那种明显的超负荷感觉,他食指和拇指捏着眉心偏下一点的位置,他只觉得眼前有无数的公式和模型图飞逝而过,而且他能感觉到,这些公式和模型图仿佛就存在他脑海的某一处,现在就仿佛只是简单地把它们提取出来。
“奇怪的感觉……但还真不错。”
就像是化作了一个小光人被抽离出这个世界,去了另一个满是知识的世界一样……
简单来说,在那一刹那,苏飞变成了光。
“唔……原来遮盖机制是这样使用的,如果是做自然语言处理,只需要按照一定概率把一句话的数个单词遮盖掉,然后让预训练模型去预测被遮盖的这个单词本身,而训练结果就是被预测单词本身,就能起到微调词向量的效果……”
不得不说,这想法非常简单,苏飞甚至有一种白白浪费了一张灵感激发卡的感觉。
明明想到遮盖机制的时候已经离正确答桉只有一墙之隔了……
罢了罢了,终究是事后诸葛亮,就像数学考试总有一道题目就感觉差临门一脚,看了答桉才直呼自己笨,但终究还是差了那么点。
苏飞在消化了这股庞大的信息流后,他的意识逐渐回到了自己身体上。
看着桌子前的台灯和纸笔,苏飞突然感觉有点陌生,之前心念一动就有无数公式浮上心头,意识中都已经把模型结构图和公式证明全部完成了,现实中还得手写……
苏飞在小本本空白的位置上,一字一顿地写上新论文的标题名【bidirecoder representations from transformers】。
意为来源于变形金刚的双向编码器向量表示。
这个论文的标题和elmo的标题书写方式是一样的,只不过elmo是致敬了taglm,但这篇新论文纯属是自己致敬自己了。
【讲真,最近一直用野果阅读看书追更,换源切换,朗读音色多,.yeguoyuedu 安卓苹果均可。】
现在变形金刚爆火,自己蹭自己的热度嘛,不丢人,何况,未来到底哪篇蹭哪篇还真不一定。
毕竟预训练模型的效果一般都是高于单一模型的。
当然,苏飞还有一个小小的恶趣味,这篇新论文的每个英文单词的第一个拼在一起就是这个预训练模型的名字——bert。
bert也是美国少儿向电视剧芝麻街的主人公之一,那长土豆一样的黄色可爱脸蛋,吸引了世界上不少孩童的目光,也是现在的不少人们心目中的童年回忆。
之前的elmo完全就是无心之失,苏飞自己也没想到一不小心就凑上了埃蒙这个芝麻街小可爱的名字,但这次的伯特,苏飞可以很骄傲地说,俺就是凑的,而且凑的还相当不错,这个标题甚至还把这篇论文的主要内容一笔点出。
值得苏飞有些担忧的是,芝麻街中还有一个叫恩尼的小可爱,不少人怀疑它和伯特是同性恋,到时候不会真有人也硬凑了个恩尼的模型名字吧…… ↑返回顶部↑
			
			
			
			
			
		想要把变形金刚做成预训练模型,那就必然要割舍一些功能,这一点苏飞倒是早有准备。
“但是如果要做预训练模型,如何才能让它训练词向量或者图向量本身……”
苏飞的笔一下子就顿住了。
这就是问题所在了,学会上也暂时没人提出相关理论……如果提出了这个相关的理论,那变形金刚的预训练化怕是已经被别人摘去了。
苏飞也不相信有人特么的能这么快。
苏飞猜测这个问题的解决方案大概率是和变形金刚的遮盖(mask)机制有关。
思路既然有了……不清楚过程的话,一张灵感激发卡!
苏飞现在可是豪横得很,1000积分的灵感激发卡那是眼睛也不眨一下。
苏飞毫不犹豫地使用了灵感激发卡,随着灵感激发卡的澹澹光芒涌入苏飞的脑海,他原本停滞下来的灵感就如同脱缰的野马一般,庞大的信息流在他的脑海中炸裂开。
但是现在有着24点精神力的苏飞,没有以往那种明显的超负荷感觉,他食指和拇指捏着眉心偏下一点的位置,他只觉得眼前有无数的公式和模型图飞逝而过,而且他能感觉到,这些公式和模型图仿佛就存在他脑海的某一处,现在就仿佛只是简单地把它们提取出来。
“奇怪的感觉……但还真不错。”
就像是化作了一个小光人被抽离出这个世界,去了另一个满是知识的世界一样……
简单来说,在那一刹那,苏飞变成了光。
“唔……原来遮盖机制是这样使用的,如果是做自然语言处理,只需要按照一定概率把一句话的数个单词遮盖掉,然后让预训练模型去预测被遮盖的这个单词本身,而训练结果就是被预测单词本身,就能起到微调词向量的效果……”
不得不说,这想法非常简单,苏飞甚至有一种白白浪费了一张灵感激发卡的感觉。
明明想到遮盖机制的时候已经离正确答桉只有一墙之隔了……
罢了罢了,终究是事后诸葛亮,就像数学考试总有一道题目就感觉差临门一脚,看了答桉才直呼自己笨,但终究还是差了那么点。
苏飞在消化了这股庞大的信息流后,他的意识逐渐回到了自己身体上。
看着桌子前的台灯和纸笔,苏飞突然感觉有点陌生,之前心念一动就有无数公式浮上心头,意识中都已经把模型结构图和公式证明全部完成了,现实中还得手写……
苏飞在小本本空白的位置上,一字一顿地写上新论文的标题名【bidirecoder representations from transformers】。
意为来源于变形金刚的双向编码器向量表示。
这个论文的标题和elmo的标题书写方式是一样的,只不过elmo是致敬了taglm,但这篇新论文纯属是自己致敬自己了。
【讲真,最近一直用野果阅读看书追更,换源切换,朗读音色多,.yeguoyuedu 安卓苹果均可。】
现在变形金刚爆火,自己蹭自己的热度嘛,不丢人,何况,未来到底哪篇蹭哪篇还真不一定。
毕竟预训练模型的效果一般都是高于单一模型的。
当然,苏飞还有一个小小的恶趣味,这篇新论文的每个英文单词的第一个拼在一起就是这个预训练模型的名字——bert。
bert也是美国少儿向电视剧芝麻街的主人公之一,那长土豆一样的黄色可爱脸蛋,吸引了世界上不少孩童的目光,也是现在的不少人们心目中的童年回忆。
之前的elmo完全就是无心之失,苏飞自己也没想到一不小心就凑上了埃蒙这个芝麻街小可爱的名字,但这次的伯特,苏飞可以很骄傲地说,俺就是凑的,而且凑的还相当不错,这个标题甚至还把这篇论文的主要内容一笔点出。
值得苏飞有些担忧的是,芝麻街中还有一个叫恩尼的小可爱,不少人怀疑它和伯特是同性恋,到时候不会真有人也硬凑了个恩尼的模型名字吧…… ↑返回顶部↑