nn model

Intension:XOR is not linear-seperable

ML的本质都是分类,对线性不可分,一方面SVM映射到高维,
t a n h ( α ) = e x p ( α ) − e x p ( − α ) e x p ( α ) + e x p ( − α ) tanh(\alpha)=\frac{exp(\alpha)-exp(-\alpha)}{exp(\alpha)+exp(-\alpha)} tanh(α)=exp(α)+exp(−α)exp(α)−exp(−α),for easy normalization

梯度下降->Newton method

一阶导用于梯度下降,二阶导为动量,用于调整学习率

不同学习率调整方法的比较:

RMSProp对序列任务表现较为accurate;

Adam下降较快,测试效果较差;

  • n-元句子的概率计算公式? MLE for句子的最大似然概率
    P ( w 1 . . . w n ) ≈ ∏ i = 1 n P ( w i ∣ w i − 1 . . . w i − k ) P(w_1...w_n)\approx \prod_{i=1}^n P(w_i|w_{i-1}...w_{i-k}) P(w1...wn)≈∏i=1nP(wi∣wi−1...wi−k)
  • 学习方式:
  1. continuous bag of words
  2. skip-gram

?NN全参数可学习,

nn到语言模型的代入is simple,what's difficult?

  • Does Neural LM need smoothing?
    No,even if there are some variable is 0,the propagation proceeds successfully.
    for output random vector,which is unseen,can be expressed.
    But how does we predict from embedding vector to word.
  1. Linear+Softmax to one-hot vector to predict.
  • How does Neural LM capture long-term n-gram dependencies?

    LSTM for
    UNK is to represent every unseen words.

  • 语言的基础特征:前后缀、

    target hw1: 使用训练数据构建统计语言模型

相关推荐
谷粒.1 小时前
Cypress vs Playwright vs Selenium:现代Web自动化测试框架深度评测
java·前端·网络·人工智能·python·selenium·测试工具
CareyWYR6 小时前
每周AI论文速递(251201-251205)
人工智能
北京耐用通信7 小时前
电磁阀通讯频频“掉链”?耐达讯自动化Ethernet/IP转DeviceNet救场全行业!
人工智能·物联网·网络协议·安全·自动化·信息与通信
cooldream20098 小时前
小智 AI 智能音箱深度体验全解析:人设、音色、记忆与多场景玩法的全面指南
人工智能·嵌入式硬件·智能音箱
oil欧哟8 小时前
AI 虚拟试穿实战,如何低成本生成模特上身图
人工智能·ai作画
小糖学代码8 小时前
LLM系列:1.python入门:3.布尔型对象
linux·开发语言·python
央链知播8 小时前
中国移联元宇宙与人工智能产业委联席秘书长叶毓睿受邀到北京联合大学做大模型智能体现状与趋势专题报告
人工智能·科技·业界资讯
人工智能培训8 小时前
卷积神经网络(CNN)详细介绍及其原理详解(2)
人工智能·神经网络·cnn
Data_agent8 小时前
1688获得1688店铺详情API,python请求示例
开发语言·爬虫·python
YIN_尹9 小时前
目标检测模型量化加速在 openEuler 上的实现
人工智能·目标检测·计算机视觉