basic

随着 sequence length的增加，意味着时间维度上的序列很长，RNN 模型也会出现梯度弥散。最后，基础的模型连接 Encoder 和 Decoder 模块的组件仅仅是一个固定大小的状态向量，这使得Decoder无法直接去关注到输入信息的更多细节。

因此引入了 Attention 的概念以及 Bi-directional encoder layer

seq2seq