nn model

Intension:XOR is not linear-seperable

ML的本质都是分类,对线性不可分,一方面SVM映射到高维,
t a n h ( α ) = e x p ( α ) − e x p ( − α ) e x p ( α ) + e x p ( − α ) tanh(\alpha)=\frac{exp(\alpha)-exp(-\alpha)}{exp(\alpha)+exp(-\alpha)} tanh(α)=exp(α)+exp(−α)exp(α)−exp(−α),for easy normalization

梯度下降->Newton method

一阶导用于梯度下降,二阶导为动量,用于调整学习率

不同学习率调整方法的比较:

RMSProp对序列任务表现较为accurate;

Adam下降较快,测试效果较差;

  • n-元句子的概率计算公式? MLE for句子的最大似然概率
    P ( w 1 . . . w n ) ≈ ∏ i = 1 n P ( w i ∣ w i − 1 . . . w i − k ) P(w_1...w_n)\approx \prod_{i=1}^n P(w_i|w_{i-1}...w_{i-k}) P(w1...wn)≈∏i=1nP(wi∣wi−1...wi−k)
  • 学习方式:
  1. continuous bag of words
  2. skip-gram

?NN全参数可学习,

nn到语言模型的代入is simple,what's difficult?

  • Does Neural LM need smoothing?
    No,even if there are some variable is 0,the propagation proceeds successfully.
    for output random vector,which is unseen,can be expressed.
    But how does we predict from embedding vector to word.
  1. Linear+Softmax to one-hot vector to predict.
  • How does Neural LM capture long-term n-gram dependencies?

    LSTM for
    UNK is to represent every unseen words.

  • 语言的基础特征:前后缀、

    target hw1: 使用训练数据构建统计语言模型

相关推荐
麦麦大数据1 小时前
F024 CNN+vue+flask电影推荐系统vue+python+mysql+CNN实现
vue.js·python·cnn·flask·推荐算法
Zzz 小生1 小时前
编程基础学习(一)-Python基础语法+数据结构+面向对象全解析
开发语言·python
white-persist1 小时前
JWT 漏洞全解析:从原理到实战
前端·网络·python·安全·web安全·网络安全·系统安全
搞科研的小刘选手2 小时前
【早稻田大学主办】2026年第三届人工智能与未来教育国际学术会议(AIFE 2026)
人工智能·机器学习·数据挖掘·机器人·未来教育·远程教育·移动学习
数据与人工智能律师2 小时前
解码Web3:DeFi、GameFi、SocialFi的法律风险警示与合规路径
大数据·网络·人工智能·云计算·区块链
Best_Me072 小时前
理解AUROC,AP,F1-scroe,PRO
人工智能·机器学习
IT_陈寒2 小时前
React 性能优化:5个实战技巧让首屏加载提升50%,开发者亲测有效!
前端·人工智能·后端
久未2 小时前
Pytorch autoload机制自动加载树外扩展(Autoload Device Extension)
人工智能·pytorch·python
Apifox.2 小时前
如何在 Apifox 中通过 AI 一键生成几十个测试用例?
人工智能·程序人生·ai·测试用例·ai编程
java1234_小锋2 小时前
TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 使用Keras.Model来定义模型
python·深度学习·tensorflow·tensorflow2