迁移学习的第二类方法:特征选择

**Hi,大家好,我是半亩花海。**在上节说明了迁移学习的第一类方法:数据分布自适应之后,本文主要将介绍迁移学习的第二类方法------特征选择。该方法基于源域和目标域存在共享特征的假设,通过机器学习选择这些公共特征来构建模型。重点讲解了经典SCL方法及其核心概念Pivot feature(跨领域高频词),并列举了后续扩展研究如联合特征选择与子空间学习等方法。特征选择法通常与分布自适应方法结合,采用稀疏表示实现特征选择,为迁移学习提供了重要技术路径。

一、基本假设

特征选择法的基本假设是:源域和目标域中均含有一部分公共的特征,在这部分公共的特征上,源领域和目标领域的数据分布是一致的。因此,此类方法的目标就是,通过机器学习方法,选择出这部分共享的特征,即可依据这些特征构建模型。

下图形象地表示了特征选择法的主要思路。
特征选择法示意图

二、核心方法

这个领域比较经典的一个方法是发表在 2006 年的 ECML-PKDD 会议上,作者提出了一个叫做 SCL 的方法 (Structural Correspondence Learning) Blitzer et al., 2006。这个方法的目标就是我们说的,找到两个领域公共的那些特征。作者将这些公共的特征叫做 Pivot feature。找出来这些Pivot feature,就完成了迁移学习的任务。
特征选择法中的 Pivot feature 示意图

上图形象地展示了 Pivot feature 的含义。Pivot feature指的是在文本分类中,在不同领域中出现频次较高的那些词。

三、扩展

SCL 方法是特征选择方面的经典研究工作。基于 SCL,也出现了一些扩展工作。

  • Joint feature selection and subspace learning Gu et al., 2011:特征选择 + 子空间学习
  • TJM (Transfer Joint Matching) Long et al., 2014b: 在优化目标中同时进行边缘分布自适应和源域样本选择
  • FSSL (Feature Selection and Structure Preservation) Li et al., 2016: 特征选择 + 信息不变性

四、小结

  1. 特征选择法从源域和目标域中选择提取共享的特征,建立统一模型;
  2. 通常与分布自适应方法进行结合;
  3. 通常采用稀疏表示 实现特征选择。
相关推荐
console.log('npc')8 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋99 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
圣殿骑士-Khtangc9 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt
2601_961963389 小时前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务
2601_961963389 小时前
从“电子化”到“自动化”:2026年智能合约与电子合同融合的技术逻辑与法律适配
网络·人工智能·区块链·智能合约·政务
米小虾10 小时前
AI Skills 工程化:当每个开发者都有一支「AI 小队」,你该怎么管理?
人工智能
DisonTangor10 小时前
谷歌开源首个扩散大语言模型——DiffusionGemma
人工智能·语言模型·自然语言处理·开源·aigc·transformer
冬奇Lab10 小时前
每日一个开源项目(第129篇):OpenMed - 永不离开设备的医疗 NLP
人工智能·开源·资讯
冬奇Lab10 小时前
Agent 系列(19):Harness 完整体系——8 层防护框架全景
人工智能·llm·agent
米小虾10 小时前
Claude Fable 5 系统提示词被扒出来了:1586 行代码背后,藏着 AI 产品工程的终极哲学
人工智能·agent