内容安全复习 2 - 网络信息内容的获取与表示

文章目录

信息内容的获取

网络信息内容的类型

  • 网络媒体信息
    传统意义上的互联网网站公开发布 信息,网络用户通常可以基于网络浏览器 获得。网络媒体、网页信息
  • 网络通讯信息
    互联网用户使用除网络浏览器以外的专用客户端软件 ,实现与特定点通信 或进行点对点通信 时所交互的信息。电子邮件、网上聊天

网络媒体信息获取方法

  • 静态媒体发布信息获取
    按信息发布方式,网络媒体信息可以分为直接匿名浏览 信息和需身份认证 网络信息;
    按网页具体形态可分为静态网页动态网页两种。
  • 基于自然人网络浏览行为模拟的信息获取
    自然人网络浏览行为模拟技术在网络媒体信息获取环节得到广泛应用。
  • 大模型信息获取重点,好好看看
    步骤如下:
    (1)用户提问:可以通过提出问题 开始。
    (2)模型评估:基于问题,模型评估能否根据已有知识库 回答,否则需要使用浏览器工具。
    (3)使用浏览器工具:如需最新消息,会使用内置的浏览器 工具。
    (4)回答用户:将整理好的信息以回答的形式 提供给用户。
    (5)反馈和调整:用户可以进行反馈 ,模型调整搜索策略或解释信息。

信息内容的表示

视觉信息

  • 处理过程
    获取、压缩、传输、重建、处理。
  • 视觉感知器
    柱状细胞、锥状细胞。
    其中锥状细胞对亮度不敏感,在高亮工作;刺激响应快。柱状细胞反之。
  • 三原色
    红、绿、蓝。
  • 计算机视觉信息
    一幅图像可以用矩阵表示,一个像素点对应矩阵中的一个元素。

    彩色图像转化成灰度图像: Y = ( R + G + B ) / 3 Y = (R+G+B) / 3 Y=(R+G+B)/3。
    对于视频,视频实际是其内容随时间变化的一组动态图像,又叫运动图像或活动图像。

视觉特征表达

图像特征表达是理解图像内容的基础,把图像从非结构化数据变成结构化数据,使得其相关性可以被有效度量。

应用:图像相似度计算(图像检索、匹配)。

  • 颜色特征

    首先选择颜色空间,并将颜色空间划分成若干个小的区域,即颜色量化。
    统计其颜色落入每个小区间的像素数目可以得到颜色直方图。
    优点: 计算简单,一定场景下能反映图片内容;缺点:丢失空间信息。如下图示例。
  • 纹理特征
    纹理是一种普遍存在的视觉现象,尚无广泛接受的定义。纹理是图像灰度或色彩在空间上的变化或重复。
    (1)局部二值模式(LBP)。
    (2)梯度直方图特征(HOG)。
    (3)尺度不变特征变换(SIFT)。
    (4)后SIFT时代的其他局部特征。

文本特征表达

重点

  • 将词语表达成向量
    首先,我们用 1-of-N Encoding 方法,如下所示。

    只有这个方法是不够的。肉眼可见的维数爆炸,词语越多维数越多。因此在这一步后加入了 Word Class 和 Word Embedding 两个步骤,如下。

    在 Word Class 中,我们对具有相同特征的词做聚类,将他们分为同一个类(Class),用所属类来表达该词。
    在 Word Embedding 中,我们把每一个词都投影到高维空间上,当然,这个空间的维度远小于第一步 1-of-N Encoding 的维度。因此这实际上是一个降维的过程。
  • 将文本表达成向量
    (1)词频(TF):词频指一个词在文本中出现的次数。通过词频进行特征选择实际上是将某一频率区间外的值去掉 从而降维。
    (2)文档频数(DF):指数据集中有多少文本包含某个单词。
    (3)TF-IDF:
    TF = 某个词在文章中的出现次数 / 文章的总词数;
    IDF(逆文档频率)= log(语料库的文档总数 / (包含该词的文档数+1))。
    TF-IDF = TF * IDF。

音频特征表达

相关推荐
ProcessOn官方账号8 分钟前
如何绘制网络拓扑图?附详细分类解说和用户案例!
网络·职场和发展·流程图·拓扑学
Ven%32 分钟前
如何在防火墙上指定ip访问服务器上任何端口呢
linux·服务器·网络·深度学习·tcp/ip
神的孩子都在歌唱1 小时前
TCP/IP 模型中,网络层对 IP 地址的分配与路由选择
网络·tcp/ip·智能路由器
阿雄不会写代码1 小时前
ubuntu安装nginx
linux·服务器·网络
starstarzz2 小时前
计算机网络实验四:Cisco交换机配置VLAN
网络·计算机网络·智能路由器·vlan·虚拟局域网
网安墨雨3 小时前
常用网络协议
网络·网络协议
Tlzns3 小时前
Linux网络——UDP的运用
linux·网络·udp
黑客老陈3 小时前
新手小白如何挖掘cnvd通用漏洞之存储xss漏洞(利用xss钓鱼)
运维·服务器·前端·网络·安全·web3·xss
HSunR5 小时前
计算机网络
网络·计算机网络
ZoeLandia5 小时前
WebSocket | 背景 概念 原理 使用 优缺点及适用场景
网络·websocket·网络协议