【project】--数据挖掘

挑选数据集

使用python模块导入数据集

导入数据集

python 复制代码
from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
# 数据集--NATICUSdroid(Android 权限)
naticusdroid_android_permissions = fetch_ucirepo(id=722) 
  
# data (as pandas dataframes)

# 数据特征
X = naticusdroid_android_permissions.data.features 
# 目标数据
y = naticusdroid_android_permissions.data.targets 
  
# metadata
# 打印数据集的元数据信息
# 元数据包含了关于数据集的一些基本描述,例如数据集的名称、来源、创建时间、数据类型等
# 这些信息有助于我们更好地理解数据集的背景和特点
print(naticusdroid_android_permissions.metadata) 
  
# variable information
# 打印数据集中变量的信息
# 变量信息会详细描述数据集中每个特征和目标变量的含义、数据类型、取值范围等
# 这对于我们了解数据集的结构和特征非常有帮助
print(naticusdroid_android_permissions.variables) 

查看数据集

python 复制代码
#查看数据规模
print(f"样本数量:{X.shape[0]},特征数量:{X.shape[1]}")
#查看目标变量分布
print("\n目标变量分布:")
#检查y的列名
#y.columns
print (y['Result']. value_counts(normalize=True))
bash 复制代码
# 查看变量信息表的列名
print(naticusdroid_android_permissions.variables.columns.tolist())
相关推荐
白-胖-子29 分钟前
深入剖析大模型在文本生成式 AI 产品架构中的核心地位
人工智能·架构
想要成为计算机高手2 小时前
11. isaacsim4.2教程-Transform 树与Odometry
人工智能·机器人·自动驾驶·ros·rviz·isaac sim·仿真环境
静心问道2 小时前
InstructBLIP:通过指令微调迈向通用视觉-语言模型
人工智能·多模态·ai技术应用
宇称不守恒4.03 小时前
2025暑期—06神经网络-常见网络2
网络·人工智能·神经网络
小楓12013 小时前
醫護行業在未來會被AI淘汰嗎?
人工智能·醫療·護理·職業
数据与人工智能律师3 小时前
数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
大数据·网络·人工智能·云计算·区块链
chenchihwen3 小时前
大模型应用班-第2课 DeepSeek使用与提示词工程课程重点 学习ollama 安装 用deepseek-r1:1.5b 分析PDF 内容
人工智能·学习
说私域4 小时前
公域流量向私域流量转化策略研究——基于开源AI智能客服、AI智能名片与S2B2C商城小程序的融合应用
人工智能·小程序
Java樱木4 小时前
AI 编程工具 Trae 重要的升级。。。
人工智能
凪卄12134 小时前
图像预处理 二
人工智能·python·深度学习·计算机视觉·pycharm