查找---插值查找（二分查找的改进版本）

插值查找（Interpolation Search）是一种针对均匀分布的有序数据优化的查找算法，是二分查找的改进版本。它通过动态计算中间点位置，使查找更贴合目标值在数据集中的实际分布，从而在理想情况下获得比二分查找更高的效率。

一、核心原理

二分查找的中间点是固定的（mid = (left + right) / 2），无论目标值大小，始终从区间中点开始比较。而插值查找的核心改进是：根据目标值与区间端点的关系，动态计算中间点，使中间点更接近目标值可能存在的位置。

中间点计算公式

对于有序数组 arr，查找区间为 [left, right]，目标值为 target，中间点 mid 计算如下：

复制代码

mid = left + (target - arr[left]) * (right - left) / (arr[right] - arr[left])

公式解析：

分子 (target - arr[left]) 表示目标值与区间左端点的差距；
分母 (arr[right] - arr[left]) 表示区间的总长度；
整体比例 (target - arr[left])/(arr[right] - arr[left]) 估算目标值在区间中的相对位置；
乘以区间长度 (right - left) 后加上 left，得到更接近目标值的中间点。

举例：在有序数组 [10, 20, 30, 40, 50, 60, 70] 中查找 50：

初始区间 left=0, right=6，arr[left]=10，arr[right]=70；
计算 mid = 0 + (50-10)*(6-0)/(70-10) = 0 + 40*6/60 = 4，直接命中 arr[4]=50，1次查找完成。

二、适用条件

插值查找的高效性依赖严格的前提条件，否则性能可能骤降：

数据必须有序：同二分查找，需按升序（或降序）排列；
数据分布均匀：元素值在区间内均匀递增/递减（如年龄、学号、等距数值）。若数据分布极端（如大部分元素集中在某一小段），中间点可能严重偏离目标值，导致效率下降。

三、时间复杂度与空间复杂度

时间复杂度 ：
- 最佳/平均情况：O(log log n)（数据均匀分布时，查找范围收缩极快）；
- 最坏情况：O(n)（数据分布极端不均匀，退化为顺序查找）。
空间复杂度 ：O(1)（迭代实现，无需额外空间）。

四、查找步骤

初始化查找区间：left = 0，right = n-1（n 为数组长度）；
循环条件：left <= right 且 target 在 [arr[left], arr[right]] 范围内（避免无效计算）；
计算中间点 mid（使用插值公式）；
比较 arr[mid] 与 target：
- 若 arr[mid] == target：找到目标，返回 mid；
- 若 arr[mid] < target：目标在右半区间，更新 left = mid + 1；
- 若 arr[mid] > target：目标在左半区间，更新 right = mid - 1；
若循环结束仍未找到，返回 -1（表示未找到）。

五、与二分查找的对比

特性	二分查找	插值查找
中间点计算	固定中点 `(left+right)/2`	动态计算，依赖目标值分布
适用数据	所有有序数据	仅均匀分布的有序数据
平均效率	`O(log n)`	`O(log log n)`（更优）
极端情况	稳定 `O(log n)`	可能退化为 `O(n)`
计算开销	低（仅加减）	较高（涉及乘除）

六、C++ 实现示例

cpp 复制代码

#include <iostream>
#include <vector>

// 插值查找函数：返回目标值索引，未找到返回-1
int interpolationSearch(const std::vector<int>& arr, int target) {
    int left = 0;
    int right = arr.size() - 1;

    // 循环条件：区间有效，且目标值在区间范围内
    while (left <= right && target >= arr[left] && target <= arr[right]) {
        // 避免除以0（当arr[left] == arr[right]时，直接检查是否为目标）
        if (arr[left] == arr[right]) {
            return (arr[left] == target) ? left : -1;
        }

        // 计算插值中间点（防止整数溢出，使用长整型临时计算）
        long long numerator = (target - arr[left]);
        long long denominator = (arr[right] - arr[left]);
        long long range = (right - left);
        int mid = left + static_cast<int>((numerator * range) / denominator);

        // 检查中间点是否越界（极端情况保护）
        if (mid < left || mid > right) {
            break;
        }

        if (arr[mid] == target) {
            return mid; // 找到目标
        } else if (arr[mid] < target) {
            left = mid + 1; // 目标在右半区间
        } else {
            right = mid - 1; // 目标在左半区间
        }
    }

    // 最后检查左端点（处理可能的边界情况）
    if (left <= right && arr[left] == target) {
        return left;
    }

    return -1; // 未找到
}

int main() {
    // 测试：均匀分布的有序数组
    std::vector<int> uniformArr = {10, 20, 30, 40, 50, 60, 70, 80, 90};
    int target1 = 60;
    int index1 = interpolationSearch(uniformArr, target1);
    if (index1 != -1) {
        std::cout << "在均匀数组中找到 " << target1 << "，索引：" << index1 << std::endl;
    } else {
        std::cout << "在均匀数组中未找到 " << target1 << std::endl;
    }

    // 测试：非均匀分布的数组（插值查找效率可能下降）
    std::vector<int> nonUniformArr = {1, 2, 3, 4, 5, 100, 101, 102};
    int target2 = 100;
    int index2 = interpolationSearch(nonUniformArr, target2);
    if (index2 != -1) {
        std::cout << "在非均匀数组中找到 " << target2 << "，索引：" << index2 << std::endl;
    } else {
        std::cout << "在非均匀数组中未找到 " << target2 << std::endl;
    }

    return 0;
}

输出结果：

复制代码

在均匀数组中找到 60，索引：5
在非均匀数组中找到 100，索引：5

七、优缺点总结

优点：在均匀分布的有序数据中，效率远高于二分查找，平均时间复杂度更低；
缺点：
1. 对数据分布敏感，非均匀数据可能导致效率骤降；
2. 计算中间点时涉及乘除运算，开销略高于二分查找；
3. 必须依赖有序数据，适用场景受限。

八、使用建议

优先用于均匀分布的大规模有序数据（如等距数值序列、均匀采样数据）；
若数据分布未知或不均匀，建议使用二分查找（稳定性更优）；
小规模数据中，顺序查找可能更简单（避免插值计算的额外开销）。

让自己进入一片雪，一片叶，一片云，让自己平和安乐是一种修行。 ---释一行