【数据分析五:Feature Engineering】特征工程

一、特征工程定义

在数据预处理以后(或者数据预处理过程中),如何从数据中提取有效的特征,使这些特征能够尽可能的表达原始数据中的信息,使得后续建立的数据模型能达到更好的效果,就是特征工程所要做的工作。

特征越好,灵活性越强
特征越好,构建的模型越简单
特征越好,模型的性能越出色

二、设计特征的方法

独热特征表示 One-hot Representation

将每个属性表示成一个很长的向量(每维代表一个属性值,如词语)

函数:[0, 0, 1, 0, 0, ..., 0, 0, 0, 0]

图像:[0, 0, 0, 0, 0, ..., 0, 0, 0, 1]

优点:直观,简洁

缺陷:

**"维度灾难"**问题:尤其是我们所构建的语料库包含的词语数据非常多的时候,独热表征在空间和时间上的开销都是十分巨大的

"语义鸿沟" 现象:任意两个词之间都是完全孤立的,是无法刻画句子中词语的语序信息的(之前提到的词袋模型也是如此)。例如,我们是无法通过独热表征来判断"函数"与"偶函数"之间的联系的(但实际上这两个词语是非常相关的)。

TF-IDF(词频-逆文档率)

算法简单高效,工业界用于++最开始的数据预处理++

主要思想:找到能代表该文档中的**"关键词"**

词频 (TF, Term Frequency)

TF = 某个词(特征值)在句子(数据)中出现的频率

逆文档率 (IDF, Inverse Document Frequency)

IDF = log(语料库(数据库)的句子(数据)总数) / 包含该词(特征值)的句子(数据)总数)

每个特征值(词)的重要性

举个直观例子:

很多推荐系统都使用该方法,根据用户搜索的信息内容,计算词频等,来推荐相关的信息

三、利用标准数据集进行特征学习(特征预训练)

作用:模型效果验证 & 应用问题中的模型预训练

图像数据预训练:ImageNet

ImageNethttp://www.image-net.org/

1400万张图片数据,2万类别,已标注

常用模型:ResNet,AlexNet,VGG等

常见应用:图像分类、目标检测、目标定位,场景分类等

文本数据预训练:Twitter,Wiki

GloVe: Global Vectors for Word RepresentationGloVe: Global Vectors for Word Representationhttps://nlp.stanford.edu/projects/glove/

2 Billon tweets, 27 Billion 词数,1.2M 词表

常用模型:CBOW,Skip-gram,Glove等Word2Vec模型

常见应用:文本分类,文本推理,翻译等

训练好的特征可以直接作为其他模型的输入来使用


笔者时间问题,还是不把课程内容之外的特征工程评价这一块拿上来。因为其中涉及损失函数(传统特征工程)、CNN、RNN(深度学习)等方法,可以去有关机器学习、深度学习的课程,或者西瓜书、花书一类的经典教辅学习!

下一讲又是全新的章节!加油!

相关推荐
嘀咕博客5 小时前
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
人工智能·音视频·语音识别·ai工具
Baihai_IDP5 小时前
GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)
人工智能·llm·gpu
AI人工智能+5 小时前
蒙古文识别技术:采用深度学习模型(CNN+RNN)处理蒙古文竖写特性,实现高精度识别
深度学习·ocr·蒙古文识别
Blacol5 小时前
【MCP】Caldav个人日程助手
人工智能·mcp
l12345sy5 小时前
Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】
人工智能·深度学习·自然语言处理
说私域5 小时前
开源AI智能名片链动2+1模式S2B2C商城小程序在公益课裂变法中的应用与影响研究
人工智能·小程序
0xCode 小新5 小时前
【C语言内存函数完全指南】:memcpy、memmove、memset、memcmp 的用法、区别与模拟实现(含代码示例)
linux·c语言·人工智能·深度学习·机器学习·容器·内存函数
Elastic 中国社区官方博客5 小时前
如何在 vscode 里配置 MCP 并连接到 Elasticsearch
大数据·人工智能·vscode·elasticsearch·搜索引擎·ai·mcp
三掌柜6666 小时前
2025三掌柜赠书活动第三十五期 AI辅助React Web应用开发实践:基于React 19和GitHub Copilot
前端·人工智能·react.js
机器之心6 小时前
强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码
人工智能·openai