C Data With The Stars
问题背景
《与星共舞》(Dancing with the Stars, DWTS)是一档真人秀舞蹈竞赛节目,已播出34季。节目机制:
(1)明星与专业舞者配对
(2)每周进行舞蹈表演
(3)评委评分(1-10分)+ 粉丝投票共同决定淘汰
(4)粉丝投票数据严格保密,这是本题的核心挑战

数据预处理
1、缺失值与异常值处理(N/A, 空值, 非法分数)
原始数据中评委打分可能出现:
(1)空值 NaN
(2)字符串 "N/A"
(3)无法转换为数值的字符
(4)淘汰后续周出现 0 分
因此定义原始评分为:


问题1分析:粉丝投票估计模型的建立
问题1: 估计每位参赛者每周的粉丝票数(未知且保密的数据) 。
l开发一个数学模型(或多个模型),为每位选手在其参赛的各周生成估计的粉丝投票数(这些数据是未知的且被严格保密)。
n您的模型是否正确估计了导致与每周实际淘汰结果一致的粉丝投票?提供一致性的衡量指标。
n您生成的粉丝投票总数有多大的确定性,这种确定性对于每位选手/每周是否始终相同?提供您对估计值确定性的衡量指标。
问题一分析:基于淘汰结果和赛制规则,构建优化模型反推粉丝投票份额。对Percentage赛季,约束淘汰者的综合得分最低;对Rank赛季,用软排名近似离散约束。再结合投票量级线索,估计绝对投票数。通过预测准确率和置信区间评估。


- 赛季规则:两种合并机制(题面约束)
Percentage merge(S3--S27):
评委按百分比合并粉丝投票,淘汰最低 combined percentage。
Rank merge(S1--S2, S28--S34):
评委排名与粉丝排名相加,淘汰 combined rank 最差者。
2.1 百分比合并(Percentage merge)
定义综合分(仅用于"淘汰比较",不代表真实票数):


问题2分析:对比分析两种投票合并方法
l问题2:使用您的粉丝投票估计值与其余数据来:
n比较和对比节目使用的两种组合评委和粉丝投票的方法(即排名法和百分比法)在各季中产生的结果(即将两种方法都应用于每一季)。如果结果存在差异,是否有一种方法似乎比另一种更倾向于粉丝投票?
n检验这两种投票方法在存在"争议"(即评委和粉丝之间存在分歧)的特定明星身上的应用。组合评委评分和粉丝投票的方法选择是否会导致这些选手得到相同的结果?如果加入评委从排名最后的两对组合中选择淘汰哪一对的额外方法,会如何影响结果?您可能考虑的一些例子(可能还有您发现的其他例子):
u第2季------杰里·赖斯,尽管在5周内评委评分最低却获得亚军。
u第4季------比利·雷·赛勒斯尽管在6周内评委评分垫底却获得第5名。
u第11季------布里斯托尔·佩林以12次最低评委评分获得第3名。
u第27季------鲍比·博恩斯尽管评委评分始终很低却赢得了比赛。
n基于您的分析,您会推荐未来几季使用这两种方法中的哪一种,为什么?您是否建议加入评委从排名最后的两对组合中选择的额外方法?
问题二分析:用反事实模拟对比两种合并规则。使用估计的粉丝投票,计算各周两种规则下的淘汰分歧率。分析争议选手(如Bristol Palin)在不同规则下的淘汰概率,并评估Judges Save机制能否减少争议。


(部分)
表1:两种方法总体对比
|----------------------|----------------------|----------------|------------|
| 指标 | Percentage方法 | Rank方法 | 差异 |
| 淘汰者平均粉丝份额 | 10.48% | 10.94% | Pct低0.46% |
| 与实际结果一致性 | 94.7% | 86.7% | Pct高8.0% |
| 加Judges Save后一致性 | ~95% | ~87% | - |
| 方法分歧周数 | 42/225 (18.7%) | - | - |
| 统计显著性 | t=1.696, p=0.091 | - | 边缘显著 |
Percentage方法淘汰粉丝份额更低 的选手,说明它更尊重粉丝投票。
问题3分析:影响因素分析
问题3:
l问使用包括您的粉丝投票估计值在内的数据,开发一个模型来分析各专业舞者以及数据中可获得的明星特征(年龄、行业等)的影响。这些因素对明星在比赛中的表现有多大影响?它们对评委评分和粉丝投票的影响方式是否相同?
问题3分析:建立回归模型分析因素影响。以评委评分和粉丝投票为因变量,舞伴经验、年龄、职业等为自变量。比较两组系数,识别哪些因素对评委(技术)和粉丝(人气)影响不同。
|--------------|-----------------------|----------------------|
| 特征类型 | 变量 | 编码方式 |
| 舞伴 | ballroom_partner | One-hot / 舞伴历史胜率 |
| 年龄 | celebrity_age | 连续 / 分段 |
| 职业 | celebrity_industry | One-hot (运动员/演员/歌手等) |
| 地区 | celebrity_homecountry | 是否美国本土 |
问题4分析:新投票系统设计
l问题4:提出另一个使用每周粉丝投票和评委评分的系统,您认为该系统更"公平"(或在其他方面更"好",例如使节目对粉丝更令人兴奋)。提供支持您的方法应被节目制作方采用的理由。
问题4分析:设计动态权重投票系统。早期侧重粉丝投票(娱乐性),后期侧重评委(专业性)。保留Judges Save,增加粉丝复活环节。用历史数据回测,通过争议指数和满意度评估效果。