数据分析实战—食物营养信息

1.实战内容

(1) 导入该农业部门食物营养数据的 JSON 数据文件;

python 复制代码
# 导入库
import pandas as pd
import json

db = json.load(open('foods-2011-10-03.json'))
print(type(db))
print(type(db[0]))
print(type(db[0]['nutrients']))
print(len(db[0]['nutrients']))
print(type(db[0]['nutrients'][0]))

(2) 查看食物营养数据集的记录数和字段属性名;

python 复制代码
print('数据集的记录数为:',len(db))
print('数据集的全部属性为:',db[0].keys())

(3) 查看食物营养数据集中营养成分(nutrients)所包含的信息,并将营养成分的列表数据生成DataFrame

(4) 使用 DataFrame 创建包含食物的 description、group、id、manufacturer 等信息表,并分析食物类别(group)的分布情况,提示每个食品类别的个数;

python 复制代码
info_keys = ['description', 'group', 'id', 'manufacturer']
info = pd.DataFrame(db, columns=info_keys)
print('食物信息:\n',info.head())
print('食物类别分布信息:\n',pd.value_counts(info.group))
python 复制代码
info.head()

(5) 先创建食物营养数据集中的全部食物营养成分(nutrients)数据表,然后再进行数据分析;

python 复制代码
#查看食物类别的种类个数
xx=info['group']
xx1=xx.drop_duplicates(keep='first')
print('种类个数:',xx1.count())
print(xx1)

#(5)将全部的营养数据整合放在一个列表中
nutrients = []
for rec in db:
   fnuts =pd.DataFrame(rec['nutrients'])
#给fnuts表添加一列数据,将每条的id添加到fnuts的id
   fnuts['id'] = rec['id']
   nutrients.append(fnuts)

nutrients_all=pd.concat(nutrients, ignore_index=True)
nutrients_all
python 复制代码
pd.value_counts(nutrients_all.description)
python 复制代码
pd.value_counts(nutrients_all.group)

(6) 对全部食物营养成分数据进行去重复值操作;

python 复制代码
print(nutrients_all.duplicated().sum())
#删除重复项
nutrients_new = nutrients_all.drop_duplicates()
print(nutrients_new)

(7) 将包含食物的名称、分类、编号、制造商等信息表与食物营养成分数据表合并。

python 复制代码
col_mapping = {'description' : 'food','group' : 'fgroup'}
info = info.rename(columns=col_mapping, copy=False)
print('info信息\n',info)
col_mapping = {'description' : 'nutrient','group' : 'nutgroup'}
nutrients_new = nutrients_new.rename(columns=col_mapping, copy=False)
print('营养信息\n',nutrients_new)
#将info表与nutrients表合并
ndata = pd.merge(nutrients_new, info, on='id', how='outer')
print('合并信息\n',ndata)

2.数据集下载

https://gitee.com/qxh200000/c_-code/commit/ca6f117a3d02a1e3195bc2d742be86eb901c7e22

相关推荐
碳酸的唐3 小时前
A* 工程实践全指南:从启发式设计到可视化与性能优化
python·神经网络
倔强青铜三6 小时前
苦练Python第64天:从零掌握多线程,threading模块全面指南
人工智能·python·面试
Q26433650237 小时前
【有源码】基于Hadoop生态的大数据共享单车数据分析与可视化平台-基于Python与大数据的共享单车多维度数据分析可视化系统
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
计算机毕业设计木哥8 小时前
计算机毕设选题推荐:基于Hadoop和Python的游戏销售大数据可视化分析系统
大数据·开发语言·hadoop·python·信息可视化·spark·课程设计
小蕾Java8 小时前
PyCharm 2025:使用图文教程!
ide·python·pycharm
至此流年莫相忘8 小时前
配置Python环境之Conda
python·conda
cooldream20098 小时前
深入解析 Conda、Anaconda 与 Miniconda:Python 环境管理的完整指南
开发语言·python·conda
B站计算机毕业设计之家8 小时前
多模态项目:Python人脸表情系统 CNN算法 神经网络+Adaboost定位+PyQt5界面 源码+文档 深度学习实战✅
python·深度学习·神经网络·opencv·yolo·计算机视觉·情绪识别
大模型真好玩9 小时前
LangGraph实战项目:从零手搓DeepResearch(一)——DeepResearch应用体系详细介绍
人工智能·python·mcp