用 Python 实现 Excel 散点图绘制与定制

散点图是数据分析中常用的图表类型,用于展示两个变量之间的关系和相关性。在统计分析、科学研究和商业决策中,散点图能够帮助我们快速识别数据模式、趋势和异常值。

Python 提供了便捷的方式来自动化生成 Excel 散点图,特别适合需要批量处理数据或动态生成可视化报告的场景。通过编程方式创建图表,我们可以将数据分析和可视化整合到自动化工作流中,提高工作效率。

本文将介绍如何使用 Python 在 Excel 中创建散点图,并演示如何添加趋势线、设置坐标轴标签以及格式化数据标签等自定义操作。

环境准备

首先需要安装 Spire.XLS for Python 库:

bash 复制代码
pip install Spire.XLS

该库提供了完整的 Excel 文件操作 API,支持创建、读取和修改 Excel 文档,包括各种图表类型的生成和定制。

创建基础散点图

散点图的基本创建流程包括准备数据、创建图表对象、设置数据源和调整图表位置。以下代码演示了如何创建一个展示薪资与汽车价格关系的散点图:

python 复制代码
from spire.xls import *
from spire.xls.common import *

# 创建工作簿
workbook = Workbook()
sheet = workbook.Worksheets[0]
sheet.Name = "Scatter Chart"

# 准备示例数据
sheet.Range["A1"].Value = "Y(薪资)"
sheet.Range["A2"].Value = "42763"
sheet.Range["A3"].Value = "195387"
sheet.Range["A4"].Value = "35672"
sheet.Range["A5"].Value = "217637"
sheet.Range["A6"].Value = "74734"
sheet.Range["A7"].Value = "130550"
sheet.Range["A8"].Value = "42976"
sheet.Range["A9"].Value = "15132"
sheet.Range["A10"].Value = "54936"

sheet.Range["B1"].Value = "X(汽车价格)"
sheet.Range["B2"].Value = "19455"
sheet.Range["B3"].Value = "93965"
sheet.Range["B4"].Value = "20858"
sheet.Range["B5"].Value = "107164"
sheet.Range["B6"].Value = "34036"
sheet.Range["B7"].Value = "87806"
sheet.Range["B8"].Value = "17927"
sheet.Range["B9"].Value = "61518"
sheet.Range["B10"].Value = "29479"

# 设置数据格式
sheet.Range["A1:B1"].ColumnWidth = 12
sheet.Range["A1:B1"].RowHeight = 15
sheet.Range["A1:B1"].Style.Color = Color.get_DarkGray()
sheet.Range["A1:B1"].Style.Font.Color = Color.get_White()
sheet.Range["A1:B1"].Style.VerticalAlignment = VerticalAlignType.Center
sheet.Range["A1:B1"].Style.HorizontalAlignment = HorizontalAlignType.Center
sheet.Range["A2:B10"].Style.NumberFormat = "\"$\"#,##0"

# 创建散点图
chart = sheet.Charts.Add(ExcelChartType.ScatterMarkers)
chart.DataRange = sheet.Range["B2:B10"]
chart.SeriesDataFromRange = False

# 设置图表位置
chart.LeftColumn = 1
chart.TopRow = 11
chart.RightColumn = 10
chart.BottomRow = 28

# 设置图表标题
chart.ChartTitle = "薪资与汽车价格关系分析"
chart.ChartTitleArea.IsBold = True
chart.ChartTitleArea.Size = 12

# 配置数据系列
chart.Series[0].CategoryLabels = sheet.Range["A2:A10"]
chart.Series[0].Values = sheet.Range["B2:B10"]

# 保存文件
workbook.SaveToFile("ScatterChart.xlsx", FileFormat.Version2010)
workbook.Dispose()

这段代码的核心步骤包括:

  1. 创建工作簿和工作表 :使用 Workbook() 创建新的 Excel 文档,并通过 Worksheets[0] 获取第一个工作表
  2. 填充数据:将 X 轴和 Y 轴数据写入指定单元格范围
  3. 创建图表对象 :通过 Charts.Add(ExcelChartType.ScatterMarkers) 添加散点图,ScatterMarkers 表示使用标记点的散点图类型
  4. 绑定数据源 :设置 DataRange 指定图表的数据范围,SeriesDataFromRange 设为 False 以手动配置数据系列
  5. 配置图表属性:设置标题、位置和数据系列的分类标签与数值

添加趋势线

趋势线是散点图的重要补充,可以帮助观察数据的整体趋势和变化规律。Spire.XLS 支持多种趋势线类型,包括线性、指数、对数和移动平均等。

以下代码演示如何在现有散点图中添加指数趋势线:

python 复制代码
from spire.xls import *
from spire.xls.common import *

# 加载包含散点图的 Excel 文件
workbook = Workbook()
workbook.LoadFromFile("ScatterChart.xlsx")
sheet = workbook.Worksheets[0]

# 获取图表并添加趋势线
chart = sheet.Charts[0]

# 添加指数趋势线
trendline = chart.Series[0].TrendLines.Add(TrendLineType.Exponential)

# 保存文件
workbook.SaveToFile("ScatterChartWithTrendline.xlsx", ExcelVersion.Version2013)
workbook.Dispose()

TrendLineType 枚举提供了多种趋势线选项:

  • Linear:线性趋势线,适用于数据呈直线变化的场景
  • Exponential:指数趋势线,适用于数据按指数增长或衰减的情况
  • Logarithmic:对数趋势线,适用于数据快速变化后趋于稳定的场景
  • Moving_Average:移动平均趋势线,用于平滑数据波动

选择合适的趋势线类型需要根据实际数据特征和分析目的来决定。

设置坐标轴标签

清晰的坐标轴标签对于图表的可读性至关重要。通过设置主坐标轴和次坐标轴的标题,可以让读者快速理解图表表达的含义。

python 复制代码
from spire.xls import *
from spire.xls.common import *

workbook = Workbook()
workbook.LoadFromFile("ScatterChart.xlsx")
sheet = workbook.Worksheets[0]
chart = sheet.Charts[0]

# 设置坐标轴标题
chart.PrimaryValueAxis.Title = "薪资(元)"
chart.PrimaryCategoryAxis.Title = "汽车价格(元)"

# 设置坐标轴标题字体样式
chart.PrimaryValueAxis.TitleArea.IsBold = True
chart.PrimaryValueAxis.TitleArea.Size = 10
chart.PrimaryCategoryAxis.TitleArea.IsBold = True
chart.PrimaryCategoryAxis.TitleArea.Size = 10

workbook.SaveToFile("ScatterChartWithAxisLabels.xlsx", ExcelVersion.Version2013)
workbook.Dispose()

PrimaryValueAxis 对应 Y 轴(数值轴),PrimaryCategoryAxis 对应 X 轴(分类轴)。通过 TitleArea 属性可以进一步定制标题的字体、大小和颜色等样式。

自定义数据标签

数据标签可以直接在图表上显示数据点的值,提高图表的信息密度和可读性。以下代码演示如何为折线图添加和格式化数据标签:

python 复制代码
from spire.xls import *
from spire.xls.common import *

workbook = Workbook()
workbook.CreateEmptySheets(1)
sheet = workbook.Worksheets[0]
sheet.Name = "Demo"

# 准备数据
sheet.Range["A1"].Value = "月份"
sheet.Range["A2"].Value = "1月"
sheet.Range["A3"].Value = "2月"
sheet.Range["A4"].Value = "3月"
sheet.Range["A5"].Value = "4月"
sheet.Range["A6"].Value = "5月"
sheet.Range["A7"].Value = "6月"

sheet.Range["B1"].Value = "销售额"
sheet.Range["B2"].NumberValue = 25
sheet.Range["B3"].NumberValue = 18
sheet.Range["B4"].NumberValue = 8
sheet.Range["B5"].NumberValue = 13
sheet.Range["B6"].NumberValue = 22
sheet.Range["B7"].NumberValue = 28

# 创建带标记的折线图
chart = sheet.Charts.Add(ExcelChartType.LineMarkers)
chart.DataRange = sheet.Range["B1:B7"]
chart.SeriesDataFromRange = False

# 设置图表位置
chart.TopRow = 5
chart.BottomRow = 26
chart.LeftColumn = 2
chart.RightColumn = 11

# 设置图表标题
chart.ChartTitle = "销售数据趋势"
chart.ChartTitleArea.IsBold = True
chart.ChartTitleArea.Size = 12

# 配置数据系列
cs1 = chart.Series[0]
cs1.CategoryLabels = sheet.Range["A2:A7"]

# 设置数据标签
cs1.DataPoints.DefaultDataPoint.DataLabels.HasValue = True
cs1.DataPoints.DefaultDataPoint.DataLabels.HasLegendKey = False
cs1.DataPoints.DefaultDataPoint.DataLabels.HasPercentage = False
cs1.DataPoints.DefaultDataPoint.DataLabels.HasSeriesName = True
cs1.DataPoints.DefaultDataPoint.DataLabels.HasCategoryName = True
cs1.DataPoints.DefaultDataPoint.DataLabels.Delimiter = ". "
cs1.DataPoints.DefaultDataPoint.DataLabels.Size = 9
cs1.DataPoints.DefaultDataPoint.DataLabels.Color = Color.get_Red()
cs1.DataPoints.DefaultDataPoint.DataLabels.FontName = "Calibri"
cs1.DataPoints.DefaultDataPoint.DataLabels.Position = DataLabelPositionType.Center

workbook.SaveToFile("ChartWithDataLabels.xlsx", ExcelVersion.Version2013)
workbook.Dispose()

数据标签的配置选项包括:

  • HasValue:显示数据点的数值
  • HasSeriesName:显示系列名称
  • HasCategoryName:显示分类名称
  • HasPercentage:显示百分比(适用于饼图等)
  • Delimiter:设置多个标签元素之间的分隔符
  • Position:设置标签相对于数据点的位置

综合应用示例

在实际应用中,我们通常需要将上述功能组合使用,创建信息丰富且视觉美观的散点图。以下是一个完整的示例:

python 复制代码
from spire.xls import *
from spire.xls.common import *

# 创建工作簿
workbook = Workbook()
sheet = workbook.Worksheets[0]
sheet.Name = "数据分析"

# 准备数据
data = [
    ("产品A", 100, 200),
    ("产品B", 150, 180),
    ("产品C", 200, 250),
    ("产品D", 120, 160),
    ("产品E", 180, 220),
    ("产品F", 90, 140),
    ("产品G", 250, 300),
    ("产品H", 160, 190),
]

sheet.Range["A1"].Value = "产品名称"
sheet.Range["B1"].Value = "广告投入(万元)"
sheet.Range["C1"].Value = "销售额(万元)"

for i, (name, ads, sales) in enumerate(data, start=2):
    sheet.Range[f"A{i}"].Value = name
    sheet.Range[f"B{i}"].NumberValue = ads
    sheet.Range[f"C{i}"].NumberValue = sales

# 创建散点图
chart = sheet.Charts.Add(ExcelChartType.ScatterMarkers)
chart.DataRange = sheet.Range["B2:C9"]
chart.SeriesDataFromRange = False

# 设置图表位置和大小
chart.LeftColumn = 1
chart.TopRow = 12
chart.RightColumn = 11
chart.BottomRow = 30

# 设置图表标题
chart.ChartTitle = "广告投入与销售额关系分析"
chart.ChartTitleArea.IsBold = True
chart.ChartTitleArea.Size = 14
chart.ChartTitleArea.FontName = "微软雅黑"

# 配置数据系列
chart.Series[0].CategoryLabels = sheet.Range["A2:A9"]
chart.Series[0].Values = sheet.Range["C2:C9"]

# 添加趋势线
chart.Series[0].TrendLines.Add(TrendLineType.Linear)

# 设置坐标轴标题
chart.PrimaryValueAxis.Title = "销售额(万元)"
chart.PrimaryCategoryAxis.Title = "广告投入(万元)"

# 设置坐标轴标题样式
chart.PrimaryValueAxis.TitleArea.IsBold = True
chart.PrimaryValueAxis.TitleArea.Size = 11
chart.PrimaryCategoryAxis.TitleArea.IsBold = True
chart.PrimaryCategoryAxis.TitleArea.Size = 11

# 保存文件
workbook.SaveToFile("ComprehensiveScatterChart.xlsx", ExcelVersion.Version2013)
workbook.Dispose()

这个综合示例展示了如何:

  1. 从数据结构批量写入 Excel 单元格
  2. 创建带有完整配置的散点图
  3. 添加线性趋势线以显示数据趋势
  4. 设置中英文混合的坐标轴标签
  5. 调整图表尺寸和位置以获得最佳视觉效果

实用技巧

在创建散点图时,以下技巧可以提升图表质量:

数据预处理:确保数据清洁,处理缺失值和异常值,避免图表出现误导性结果。

图表类型选择:根据数据特点选择合适的散点图变体:

  • ScatterMarkers:仅显示数据点标记
  • ScatterSmoothedLines:显示平滑曲线连接数据点
  • ScatterLines:显示直线连接数据点

颜色搭配:使用对比明显的颜色区分不同数据系列,保持视觉一致性。

图例位置:当有多个数据系列时,合理放置图例以避免遮挡数据点。

导出优化:根据用途选择合适的文件格式和分辨率,打印用途建议使用较高分辨率。

总结

本文介绍了使用 Python 在 Excel 中创建和自定义散点图的完整流程,包括基础图表创建、趋势线添加、坐标轴标签设置和数据标签格式化等核心功能。

通过掌握这些技术,开发者可以将数据可视化集成到自动化数据处理流程中,提高数据分析效率。散点图结合趋势线特别适用于探索变量间的相关性,在统计分析、市场研究和科学实验等领域具有广泛应用。

进一步的扩展方向包括:

  • 创建多系列散点图以比较不同数据集
  • 应用条件格式突出显示特定数据点
  • 结合其他图表类型创建仪表板
  • 实现交互式图表生成工具

这些技能将帮助开发者构建更强大的数据分析和报告生成系统。

相关推荐
PAK向日葵1 小时前
从零实现 Python 虚拟机(一):PVM 基本原理介绍
python
怪兽陪你看日出B2 小时前
一文彻底搞懂本地缓存之王-Caffeine
后端
JavaGuide2 小时前
Spec Coding 规范驱动编程实战:从 Vibe Coding 到 AI 代码规范
后端·vibecoding
神所夸赞的夏天2 小时前
创建虚拟环境提示SSLError错误
python
极光代码工作室2 小时前
基于机器学习的二手商品价格预测系统
人工智能·python·深度学习·机器学习
无情的西瓜皮2 小时前
MCP协议实战:从零搭建一个AI Agent工具服务器
运维·服务器·python
IT策士2 小时前
Django 从 0 到 1 打造完整电商平台:系列总结 + 项目演示与后续扩展
后端·python·django
小马爱打代码2 小时前
Spring源码 第十一篇:Spring 扩展点全解析 - 从容器启动到 Bean 生命周期的完整执行时序
java·后端·spring
君为先-bey2 小时前
LeMiCa——基于扩散模型的高效视频生成的词典序最小化路径缓存
python·算法·机器学习·扩散模型