nn model

Intension:XOR is not linear-seperable

ML的本质都是分类,对线性不可分,一方面SVM映射到高维,
t a n h ( α ) = e x p ( α ) − e x p ( − α ) e x p ( α ) + e x p ( − α ) tanh(\alpha)=\frac{exp(\alpha)-exp(-\alpha)}{exp(\alpha)+exp(-\alpha)} tanh(α)=exp(α)+exp(−α)exp(α)−exp(−α),for easy normalization

梯度下降->Newton method

一阶导用于梯度下降,二阶导为动量,用于调整学习率

不同学习率调整方法的比较:

RMSProp对序列任务表现较为accurate;

Adam下降较快,测试效果较差;

  • n-元句子的概率计算公式? MLE for句子的最大似然概率
    P ( w 1 . . . w n ) ≈ ∏ i = 1 n P ( w i ∣ w i − 1 . . . w i − k ) P(w_1...w_n)\approx \prod_{i=1}^n P(w_i|w_{i-1}...w_{i-k}) P(w1...wn)≈∏i=1nP(wi∣wi−1...wi−k)
  • 学习方式:
  1. continuous bag of words
  2. skip-gram

?NN全参数可学习,

nn到语言模型的代入is simple,what's difficult?

  • Does Neural LM need smoothing?
    No,even if there are some variable is 0,the propagation proceeds successfully.
    for output random vector,which is unseen,can be expressed.
    But how does we predict from embedding vector to word.
  1. Linear+Softmax to one-hot vector to predict.
  • How does Neural LM capture long-term n-gram dependencies?

    LSTM for
    UNK is to represent every unseen words.

  • 语言的基础特征:前后缀、

    target hw1: 使用训练数据构建统计语言模型

相关推荐
Bonne journée1 分钟前
‌在Python中,print(f‘‘)是什么?
java·开发语言·python
next_travel8 分钟前
机器学习中的聚类
机器学习·聚类·sklearn
FL16238631299 分钟前
[C++]使用C++部署yolov11目标检测的tensorrt模型支持图片视频推理windows测试通过
人工智能·yolo·目标检测
人生不如初见23 分钟前
平台数据分类与聚类实验报告
人工智能·分类·数据挖掘·聚类
iiimZoey26 分钟前
Dit架构 diffusion范式分类+应用
人工智能·python
R三哥哥啊27 分钟前
【树莓派5B】IO串口通信使用
python
唐小旭29 分钟前
RL_足球教练
人工智能
winfredzhang29 分钟前
如何使用Flair.ai实现模特换装效果
人工智能·换装·flair
程序员非鱼35 分钟前
深度学习中的损失函数详解
人工智能·深度学习·计算机视觉·损失函数
互联网时光机1 小时前
python写的window小工具-一键设置ip自动获取ip
网络·windows·python