用的时候,只关心token的输入,以及hidden state就好了
sequence的length是多少,lstm的cell的数量就是多少
LSTM
BI-LSTM
stacked lstm
GRU
实现