基于MATLAB实现基于距离的离群点检测算法

一、核心方法与MATLAB实现

1. k近邻（k-NN）距离法

原理：计算每个点到其k个最近邻的平均距离，距离显著大于其他点的视为离群点。

代码实现：

matlab 复制代码

function outliers = kNN_OutlierDetection(data, k, threshold)
    % 输入：data - 数据矩阵（n×d），k - 近邻数，threshold - 距离阈值
    % 输出：outliers - 离群点索引
    
    % 计算所有点对距离
    distances = pdist2(data, data);
    % 获取每个点的k个最近邻距离（排除自身）
    [~, idx] = sort(distances, 2);
    k_distances = idx(:, 2:k+1); % 排除第1列（自身距离0）
    avg_dist = mean(k_distances, 2);
    
    % 设定动态阈值（分位数法）
    threshold = quantile(avg_dist, 0.75) + 1.5 * (quantile(avg_dist, 0.75) - quantile(avg_dist, 0.25));
    outliers = find(avg_dist > threshold);
end

% 示例调用
data = randn(100,2); % 生成100个二维数据点
outliers = kNN_OutlierDetection(data, 5, 1.5);

2. 局部离群因子（LOF）

原理：通过比较点与邻域的局部密度比值，密度显著低于邻域的点为离群点。

代码实现（需Statistics and Machine Learning Toolbox）：

matlab 复制代码

function outliers = LOF_OutlierDetection(data, k, contamination)
    % 输入：data - 数据矩阵，k - 邻域大小，contamination - 异常比例
    % 输出：outliers - 离群点索引
    
    mdl = fitcknn(data, 'NumNeighbors', k, 'Standardize', true);
    distances = predict(mdl, data);
    [~, idx] = sort(distances, 2);
    k_distances = idx(:, 2:k+1);
    lrd = 1 ./ mean(k_distances, 2); % 局部可达密度
    
    % 计算LOF值
    neighbors_lrd = zeros(size(data,1),k);
    for i = 1:size(data,1)
        neighbors_lrd(i,:) = lrd(idx(i,2:k+1));
    end
    lof_scores = mean(neighbors_lrd ./ lrd, 2);
    
    % 设定阈值
    threshold = quantile(lof_scores, 1 - contamination);
    outliers = find(lof_scores > threshold);
end

% 示例调用
outliers = LOF_OutlierDetection(data, 10, 0.05);

3. 马氏距离（Mahalanobis Distance）

原理：考虑特征相关性，计算点到数据分布中心的标准化距离。

代码实现：

matlab 复制代码

function outliers = Mahalanobis_OutlierDetection(data, contamination)
    % 输入：data - 数据矩阵，contamination - 异常比例
    % 输出：outliers - 离群点索引
    
    % 稳健协方差估计（MCD算法）
    [S, mu] = robustcov(data);
    inv_S = inv(S);
    
    % 计算马氏距离
    diff = data - mu;
    mah_dist = sqrt(sum((diff * inv_S) .* diff, 2));
    
    % 设定阈值（卡方分布）
    threshold = chi2inv(1 - contamination, size(data,2));
    outliers = find(mah_dist > threshold);
end

% 示例调用
outliers = Mahalanobis_OutlierDetection(data, 0.02);

二、参数优化与评估

1. 关键参数选择

k值（k-NN/LOF）：通过肘部法则或轮廓系数选择，建议范围3-20。
异常比例（contamination）：根据领域知识设定，或通过孤立森林等算法预估。
距离阈值：分位数法（如1.5IQR）或统计检验（如卡方分布）。

2. 性能评估

matlab 复制代码

% 生成带标签数据（示例）
rng(42);
clean_data = randn(80,2);
outliers_true = [randn(5,2)*3; randn(5,2)*3+5]; % 10个离群点
data = [clean_data; outliers_true];
labels = [ones(80,1); zeros(10,1)];

% 评估函数
function metrics = evaluate_detection(true_labels, pred_labels)
    C = confusionmat(true_labels, pred_labels);
    metrics.accuracy = sum(diag(C))/sum(C(:));
    metrics.precision = C(2,2)/(C(2,1)+C(2,2));
    metrics.recall = C(2,2)/(C(1,2)+C(2,2));
    metrics.F1 = 2*(metrics.precision*metrics.recall)/(metrics.precision+metrics.recall);
end

% 示例评估
pred_labels = zeros(size(data,1),1);
pred_labels(outliers) = 1;
metrics = evaluate_detection(labels, pred_labels);
disp(metrics);

三、应用场景与优化建议

1. 典型场景

工业检测：传感器数据中的突发噪声剔除（如温度、振动信号）。
金融风控：信用卡交易中的异常金额识别。
生物医学：基因表达数据中的异常样本检测。

2. 优化策略

降维预处理：使用PCA或t-SNE减少冗余特征。
动态阈值：结合滑动窗口更新阈值，适应数据分布变化。
并行计算 ：对大规模数据使用parfor加速k近邻搜索。

四、GUI工具实现（可选）

通过MATLAB App Designer构建交互式界面：

matlab 复制代码

% 示例GUI代码框架
app = uifigure('Name', '离群点检测工具');
ax = uiaxes(app, 'Position', [0.1 0.3 0.8 0.6]);
btnLoad = uibutton(app, 'Text', '加载数据', 'Position', [20 20 100 30], ...
    'ButtonPushedFcn', @(btn,event) loadData(btn,event,ax));
btnDetect = uibutton(app, 'Text', '检测离群点', 'Position', [150 20 120 30], ...
    'ButtonPushedFcn', @(btn,event) detectOutliers(btn,event,ax));

function loadData(btn,event,ax)
    [file,path] = uigetfile('*.mat');
    data = load(fullfile(path,file));
    scatter(ax, data(:,1), data(:,2), 'filled');
    title(ax, '原始数据');
end

function detectOutliers(btn,event,ax)
    % 调用上述算法并可视化结果
end

参考代码基于距离的离群点检测 www.youwenfan.com/contentcsj/63211.html

五、完整代码整合

将上述方法封装为函数库，支持一键切换算法：

matlab 复制代码

function outliers = detect_outliers(data, method, varargin)
    % 输入：data - 数据矩阵，method - 方法名（'knn','lof','mahalanobis'）
    % 可选参数：k, contamination, threshold
    
    p = inputParser;
    addParameter(p, 'k', 5, @(x) isscalar(x) && x>1);
    addParameter(p, 'contamination', 0.05, @(x) isscalar(x)&&0<x<1);
    parse(p, varargin{:});
    
    switch lower(method)
        case 'knn'
            outliers = kNN_OutlierDetection(data, p.Results.k, p.Results.contamination);
        case 'lof'
            outliers = LOF_OutlierDetection(data, p.Results.k, p.Results.contamination);
        case 'mahalanobis'
            outliers = Mahalanobis_OutlierDetection(data, p.Results.contamination);
        otherwise
            error('未知方法');
    end
end