# Transformer
# 引入
2018年谷歌团队提出了生成词向量算法BERT,其核心即为Transformer
# 组成
自注意力机制Self-Attention
和前馈神经网络Feed Forward Neural Network
# 工作机制
对数据进行编码,捕获给定单词与其前后单词之间的关系
# 优点
结合了CNN和RNN的优点
- 可以理解很远的序列元素之间的关系(克服了RNN缺点)
- 对序列中所有元素给予同样关注(自注意力机制?)
- 处理速度快(大模型算力消耗在并行计算,而MLP有利于并行计算?)
- 几乎可以处理任何序列数据(克服了CNN缺点)
- 可以实现上下文预测
- 有利于异常检测
# 注意力模型《Attention Model》(AM)
# 引入
最早出现在机器翻译中,目前广泛使用在自然语言处理、统计学习、语音、计算机视觉
# 功能:有选择的将注意力集中在某些部分,忽略其他不相关信息,有助于感知
# 优势:
- 自然语言处理的新技术
- 提高了神经网络的可解释性
- 有助于克服RNN存在的一些问题
← 探索与记录