前言
最近,老师让复现几篇论文中的方法。打开一篇有关cnn
的论文,初略一看,这个模型结构不就是textcnn
吗?!论文中改头换面变成了LS-CNN
,着实有些摸不着头脑。那就仔细看看模型说明吧,看看到底有什么神奇之处。
十多分钟后······,大概懂了,LS-CNN = TextCNN(w*stack(A,B))
。A、B分别表示layer embedding特征、Google word2vec 词向量特征,*表示卷积,stack表示堆叠(两个大小维度相同的矩阵,堆叠后,通道变成2),通过一维卷积操作进行降维(融合两个嵌入特征)。
I know nothing but my ignorance……
2017年谷歌一篇Attention is all you need
在自然语言处理领域炸开了锅。此后transformer
成为了许多人发paper密码 。之后的bert
更是在各大nlp任务上霸榜。各种魔改层出不求。至此,如果不了解transfomer
,不会微调bert
都不好意思说自己是一个 nlper
。不仅如此,隔壁的cv
圈都要沾一下光(VIT
)。要我说以后投稿就喊一句:哦斯,喊出我的名字吧!transformer. 或者 构筑未来,希望之光,特利迦,transformer type/bert type 。颇有一股新生代奥特曼借力量的趣味(滑稽)。
距离transformer
发布已经过去4年,这一波热潮何时褪去,或者下一次革命性的模型什么时候出现,这似乎很难预测。self-attention
的尽头是什么?在这急功近利的时代,各大AI Lab
又有几个愿意沉下心来思考研究呢?毕竟资本家只在乎短期能不能变现。
有意思的是,transformer
又名变形金刚,这也预示这它花里胡哨的各式变形成为可能。
方兴未艾
基于自己有限的认知,随便瞎扯了一下。
回归正题,自然语言处理技术在其他领域的应用正在悄悄进行中,就像开头提到的那个团队所做的工作一样。仔细一想,他们似乎也是在填充这一块空白,为后继者提供一个新的基线,这是有利于领域发展的。这是一个十分优秀的团队,有责任有担当。
而作为新入行者的我或者其他人,应该也是倍感压力的。眼下借助自然语言处理技术发光发热的路子似乎并没有那么简单了。
班门弄斧
所以,在此,不妨大胆预测一下,他们接下来会不会对transformer
那一大家子动手呢,又或者另辟蹊径采用GNN(GCN)
来建模呢?这两种可能性还是很大的。
哈哈哈哈哈哈。在这里挖个坑,献丑提名个 TS-Transformer
来做隐写分析。
采用Transformer
的encoder
部分提取句子中词与词之间的关系特征和甚至句子的语义特征,然后进行max-pool
及avg-pool
,然后concat
两个pool特征进行融合,在通过最后全连接进行分类。当然对于词嵌入向量也使用两种embedding,即word2vec
和layer embedding
。基于此实现的TS-Transformer
已经在训练了。事实证明这是可以work的。至于效果,留个悬念,暂不公布,代码暂不开源(就图一乐,/滑稽.jpg)。
【后续补个模型图】
【后续补个实验结果】
似乎使用大规模预训练bert
模型来代替word2vec
效果应该更好吧。毕竟word2vec
还是属于浅层特征表示吧。【又挖个坑】
按照这个路子,TS-bert、TS-GNN、TS-GCN......
都是可能work的。
有空在更
然后……中秋放假了。
哦斯,喊出我的名字吧!TS-Transformer
。构筑未来,希望之光,transformer
,TS type
。
【高开低走的特特利迦竟然试图让泽塔串场来拯救低迷的收视率以及低到可怜的评分,笑死】