合法爬虫四底线法律边界

合法爬虫四底线（缺一不可）：

不非法侵入：不用技术突破登录 / 权限（你自己账号正常登录不算侵入）；

不破坏防护：不绕过验证码、不伪造设备指纹、不隐藏自动化特征；

不干扰运行：频率低、不并发、不搞垮对方服务器；

不损害权益：只抓自己数据、不泄露、不售卖、不竞争

你整理的「四底线」框架方向是对的，但与 2025--2026 年最新官方口径对照后，部分表述需要精确化，尤其是「自己账号正常登录不算侵入」和「只抓自己数据」这两点在司法实践中存在较大争议空间。以下是基于最高检、国家数据局、最高法及新修订《反不正当竞争法》的权威口径做的对照与补正：

维度	核心法规/文件	官方口径要点
刑事边界	最高检《厘定边界合理规制网络爬虫行为》（2025-11）	摒弃 robots 协议「合约权利」标准，转为「代码技术障碍」标准；合法爬虫即使造成系统短暂瘫痪，也至多民事责任，不当然入刑
行政监管	国家数据局权威解读（2026-04，深圳坪山落地）	自动化收集公开数据必须「合法合规、安全可控、不侵权、不滥用」
竞争法	《反不正当竞争法》2025 年修订第 13 条第 3 款	禁止「以欺诈、胁迫、避开或破坏技术措施等不正当方式，获取、使用其他经营者合法持有的数据」
数据安全	《网络数据安全管理条例》第 18 条（2025-01-01 施行）	使用自动化工具（爬虫）需评估影响，不得「非法侵入网络」或「干扰服务正常运行」
司法认定	最高法指导性案例 262 号（2025-08）	若爬取行为「实质性替代被爬取方产品或服务」，则构成不正当竞争

官方标准 ：最高检明确采用**「技术障碍标准」------即是否突破了网站代码层面的安全防护措施**（如加密算法、身份鉴权、访问控制），而非单纯看是否用了账号登录。
关键修正 ：「自己账号正常登录不算侵入」不完全成立 。如果你用账号登录后，通过爬虫突破该账号原本无权访问的数据范围（例如爬取后台隐藏接口、越权访问他人数据），仍然属于「未经许可进入计算机信息系统」，可构成刑法第 285 条「非法获取计算机信息系统数据罪」。

《网络数据安全管理条例》第 18 条明确要求「不得干扰服务正常运行」。
最高检进一步指出：即使爬虫导致政府公开数据网站瘫痪两小时，只要爬取的是公开数据且未突破技术屏障，仍属于合法行为，后果应通过优化公共服务解决，而非刑事追责。

「不损害权益」过于宽泛，2025--2026 年司法实践已将其细化为两个层次：

层次	认定标准	法律后果
民事/行政层面	「实质性替代」------爬取数据后提供的产品/服务高度同质化，导致用户无需使用原平台	构成不正当竞争，承担民事赔偿或行政处罚
刑事层面	必须造成实质法益损害------数据承载的现实利益（著作权、商业秘密、公民个人信息等）受到实际侵害	可能触犯侵犯著作权罪、侵犯公民个人信息罪、侵犯商业秘密罪等

因此，「只抓自己数据」不是合规的充分条件。即使抓的是公开数据，如果抓取后用于「实质性替代」原平台服务，仍构成不正当竞争；反之，抓取公开作品虽未获平台授权，但未突破技术措施且未替代原服务，则至多民事责任，不动用刑法。

基于上述口径，建议将「四底线」升级为以下操作清单：

对象合规 ：优先抓取公开数据 ；非公开数据必须获得明确授权（不仅是账号登录，而是数据访问授权）。
手段合规：不破解加密、不绕过验证码、不越权访问；控制请求频率，避免触发「干扰正常运行」的行政监管红线。
用途合规 ：抓取后的数据使用不得实质性替代被爬取方的产品或服务，避免「搭便车」式竞争。
协议合规：虽然最高检认为 robots 协议的法律效力存疑，但在行政监管层面（如国家数据局推动的政府网站 robots 协议部署），仍建议遵守目标网站的 robots.txt 及用户协议，作为合规姿态。

总结：你整理的「四底线」作为内部合规口诀是实用的，但在「账号登录」和「只抓自己数据」这两个点上需要收紧------关键不在于是否登录，而在于是否突破技术屏障；关键不在于数据归属，而在于是否造成实质性替代或法益侵害。

合法爬虫四底线 法律边界