有道词典网页版接口分析与爬虫研究

说明:仅供学习使用,请勿用于非法用途,若有侵权,请联系博主删除

作者:zhu6201976

一、目标站点

有道词典网页版:网易有道

二、目标接口

url:https://dict.youdao.com/jsonapi_s?doctype=json&jsonversion=4

method:POST

formdata:

如图所示,需要解决参数sign、t的算法逆向,难度:中

三、部分样例代码

1. sign、t参数生成逻辑

python 复制代码
    def generate_sign_t(q, w):
        """
        sign/t 生成
        :params q: 搜索词
        :params w: 网页中获取
        return: sign, t
        """
        time_ = len(f'{q}webdict') % 10
        r = f'{q}webdict'
        o = hashlib.md5(r.encode('utf-8')).hexdigest()
        n = f'web{q}{time_}{w}{o}'
        f = hashlib.md5(n.encode('utf-8')).hexdigest()
        return f, time_

2. 搜索接口请求构造

python 复制代码
            url = f'{self.root_url}/jsonapi_s?doctype=json&jsonversion=4'
            headers = {
                'Content-Type': 'application/x-www-form-urlencoded',
                'Referer': 'https://www.youdao.com/',
            }
            sign, t = self.generate_sign_t(q)
            data = {
                'q': q,
                'le': 'en',
                't': f'{t}',
                'client': 'web',
                'sign': f'{sign}',
                'keyfrom': 'webdict'
            }
            yield scrapy.FormRequest(url, headers=headers, formdata=data, method='POST', callback=self.parse)
相关推荐
腾讯TNTWeb前端团队6 小时前
helux v5 发布了,像pinia一样优雅地管理你的react状态吧
前端·javascript·react.js
范文杰9 小时前
AI 时代如何更高效开发前端组件?21st.dev 给了一种答案
前端·ai编程
拉不动的猪9 小时前
刷刷题50(常见的js数据通信与渲染问题)
前端·javascript·面试
拉不动的猪10 小时前
JS多线程Webworks中的几种实战场景演示
前端·javascript·面试
FreeCultureBoy10 小时前
macOS 命令行 原生挂载 webdav 方法
前端
uhakadotcom11 小时前
Astro 框架:快速构建内容驱动型网站的利器
前端·javascript·面试
uhakadotcom11 小时前
了解Nest.js和Next.js:如何选择合适的框架
前端·javascript·面试
uhakadotcom11 小时前
React与Next.js:基础知识及应用场景
前端·面试·github
uhakadotcom11 小时前
Remix 框架:性能与易用性的完美结合
前端·javascript·面试
uhakadotcom11 小时前
Node.js 包管理器:npm vs pnpm
前端·javascript·面试