nn model

Intension:XOR is not linear-seperable

ML的本质都是分类,对线性不可分,一方面SVM映射到高维,
t a n h ( α ) = e x p ( α ) − e x p ( − α ) e x p ( α ) + e x p ( − α ) tanh(\alpha)=\frac{exp(\alpha)-exp(-\alpha)}{exp(\alpha)+exp(-\alpha)} tanh(α)=exp(α)+exp(−α)exp(α)−exp(−α),for easy normalization

梯度下降->Newton method

一阶导用于梯度下降,二阶导为动量,用于调整学习率

不同学习率调整方法的比较:

RMSProp对序列任务表现较为accurate;

Adam下降较快,测试效果较差;

  • n-元句子的概率计算公式? MLE for句子的最大似然概率
    P ( w 1 . . . w n ) ≈ ∏ i = 1 n P ( w i ∣ w i − 1 . . . w i − k ) P(w_1...w_n)\approx \prod_{i=1}^n P(w_i|w_{i-1}...w_{i-k}) P(w1...wn)≈∏i=1nP(wi∣wi−1...wi−k)
  • 学习方式:
  1. continuous bag of words
  2. skip-gram

?NN全参数可学习,

nn到语言模型的代入is simple,what's difficult?

  • Does Neural LM need smoothing?
    No,even if there are some variable is 0,the propagation proceeds successfully.
    for output random vector,which is unseen,can be expressed.
    But how does we predict from embedding vector to word.
  1. Linear+Softmax to one-hot vector to predict.
  • How does Neural LM capture long-term n-gram dependencies?

    LSTM for
    UNK is to represent every unseen words.

  • 语言的基础特征:前后缀、

    target hw1: 使用训练数据构建统计语言模型

相关推荐
iAm_Ike5 小时前
Go 中自定义类型与基础类型间的显式类型转换详解
jvm·数据库·python
iuvtsrt5 小时前
Golang怎么实现方法集与接口的匹配_Golang如何理解值类型和指针类型实现接口的区别【详解】
jvm·数据库·python
牧子川5 小时前
009-Transformer-Architecture
人工智能·深度学习·transformer
covco5 小时前
矩阵管理系统指南:拆解星链引擎的架构设计与全链路落地实践
大数据·人工智能·矩阵
沪漂阿龙5 小时前
AI大模型面试题:支持向量机是什么?间隔最大化、软间隔、核函数、LinearSVC 全面拆解
人工智能·算法·支持向量机
lifewange5 小时前
AI编写测试用例工具介绍
人工智能·测试用例
陕西字符5 小时前
2026 西安 豆包获客优化技术深度解析:企来客科技 AI 全域获客系统测评
大数据·人工智能
掘金安东尼5 小时前
GGUF、GPTQ、AWQ、EXL2、MLX、VMLX...运行大模型,为什么会有这么多格式?
人工智能
新知图书5 小时前
市场分析报告自动化生成(使用千问)
人工智能·ai助手·千问·高效办公
无心水5 小时前
【Hermes:安全、权限与生产环境】38、Hermes Agent 安全四层纵深:最小权限原则从理论到落地的完全指南
人工智能·安全·mcp协议·openclaw·养龙虾·hermes·honcho