nn model

Intension:XOR is not linear-seperable

ML的本质都是分类,对线性不可分,一方面SVM映射到高维,
t a n h ( α ) = e x p ( α ) − e x p ( − α ) e x p ( α ) + e x p ( − α ) tanh(\alpha)=\frac{exp(\alpha)-exp(-\alpha)}{exp(\alpha)+exp(-\alpha)} tanh(α)=exp(α)+exp(−α)exp(α)−exp(−α),for easy normalization

梯度下降->Newton method

一阶导用于梯度下降,二阶导为动量,用于调整学习率

不同学习率调整方法的比较:

RMSProp对序列任务表现较为accurate;

Adam下降较快,测试效果较差;

  • n-元句子的概率计算公式? MLE for句子的最大似然概率
    P ( w 1 . . . w n ) ≈ ∏ i = 1 n P ( w i ∣ w i − 1 . . . w i − k ) P(w_1...w_n)\approx \prod_{i=1}^n P(w_i|w_{i-1}...w_{i-k}) P(w1...wn)≈∏i=1nP(wi∣wi−1...wi−k)
  • 学习方式:
  1. continuous bag of words
  2. skip-gram

?NN全参数可学习,

nn到语言模型的代入is simple,what's difficult?

  • Does Neural LM need smoothing?
    No,even if there are some variable is 0,the propagation proceeds successfully.
    for output random vector,which is unseen,can be expressed.
    But how does we predict from embedding vector to word.
  1. Linear+Softmax to one-hot vector to predict.
  • How does Neural LM capture long-term n-gram dependencies?

    LSTM for
    UNK is to represent every unseen words.

  • 语言的基础特征:前后缀、

    target hw1: 使用训练数据构建统计语言模型

相关推荐
西维5 分钟前
高效使用AI从了解 Prompt / Agent / MCP 开始
前端·人工智能·后端
柠檬味拥抱23 分钟前
基于Ray与Dask的AI Agent大规模数据并行计算优化
人工智能
聚客AI26 分钟前
📚LangChain框架下的检索增强:5步构建高效智能体系统
人工智能·langchain·llm
Fine姐30 分钟前
自然语言处理NLP L4: 高级语言模型——四种泛化平滑方式
人工智能·语言模型·自然语言处理
跟橙姐学代码30 分钟前
Python 高手都偷偷用的 Lambda 函数,你还在傻傻写 def 吗?
前端·python
袁培宇39 分钟前
python学习打卡day40
人工智能·python·学习
PythonicCC42 分钟前
Django的生命周期
python·django·sqlite
CodeDevMaster44 分钟前
Claude Code入门指南:开发者必备的AI编程工具
人工智能·ai编程·claude
竹子_231 小时前
《零基础入门AI:深度学习之NLP基础学习》
人工智能·python·深度学习·自然语言处理