爬虫解析代码结构

在设计中加入一个顶层接口是有益的,特别是当您希望实现统一的接口来处理所有类型的排行榜数据时。这样做可以提供更好的灵活性和扩展性,同时保持代码的整洁和易于维护。

设计概述

  1. 接口 : 定义一个 RankingDataCollector 接口,它定义了所有数据收集器应该遵循的方法签名。
  2. 抽象基类 : 定义一个抽象基类 RankingPageParser,它包含所有解析器共有的方法和属性。
  3. 具体解析器 : 每个数据来源都有一个对应的子类,如 ToutiaoRankingParserWeiboRankingParser 等。
  4. 工厂模式: 使用工厂模式来根据数据来源创建相应的解析器实例。
java 复制代码
classDiagram
    class RankingDataCollector{
        +List<String> collectData(String url)
    }
    
    class RankingPageParser{
        +String url
        +Document parsePage()
        abstract +List<String> extractTitles()
    }
    
    class ToutiaoRankingParser{
        +RankingPageParser(url: String)
        +List<String> extractTitles()
    }
    
    class WeiboRankingParser{
        +RankingPageParser(url: String)
        +List<String> extractTitles()
    }
    
    class RankingParserFactory{
        +static RankingPageParser createParser(String platform, String url)
    }
    
    RankingPageParser <|-- ToutiaoRankingParser
    RankingPageParser <|-- WeiboRankingParser
    RankingDataCollector <|-- ToutiaoRankingParser
    RankingDataCollector <|-- WeiboRankingParser

Java 实现示例

1. 接口 RankingDataCollector
java 复制代码
public interface RankingDataCollector {
    List<String> collectData(String url);
}
2. 抽象基类 RankingPageParser
java 复制代码
public abstract class RankingPageParser implements RankingDataCollector {
    protected String url;

    public RankingPageParser(String url) {
        this.url = url;
    }

    public Document parsePage() throws IOException {
        return Jsoup.connect(url).get();
    }

    public abstract List<String> extractTitles();
    
    @Override
    public List<String> collectData(String url) {
        this.url = url;
        return extractTitles();
    }
}
3. 具体解析器
java 复制代码
public class ToutiaoRankingParser extends RankingPageParser {
    public ToutiaoRankingParser(String url) {
        super(url);
    }

    @Override
    public List<String> extractTitles() {
        List<String> titles = new ArrayList<>();
        try {
            Document doc = parsePage();
            Elements titleWraps = doc.select(".list-container .title-wrap");
            for (Element titleWrap : titleWraps) {
                String titleText = titleWrap.text();
                titles.add(titleText);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return titles;
    }
}

public class WeiboRankingParser extends RankingPageParser {
    public WeiboRankingParser(String url) {
        super(url);
    }

    @Override
    public List<String> extractTitles() {
        List<String> titles = new ArrayList<>();
        try {
            Document doc = parsePage();
            Elements titleElements = doc.select(".weibo-rank .rank-item .title");
            for (Element titleElement : titleElements) {
                String titleText = titleElement.text();
                titles.add(titleText);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
        return titles;
    }
}
4. 工厂模式
java 复制代码
public class RankingParserFactory {
    public static RankingPageParser createParser(String platform, String url) {
        switch (platform) {
            case "toutiao":
                return new ToutiaoRankingParser(url);
            case "weibo":
                return new WeiboRankingParser(url);
            default:
                throw new IllegalArgumentException("Unsupported platform: " + platform);
        }
    }
}
5. 使用示例
java 复制代码
public class Main {
    public static void main(String[] args) {
        String url = "https://example.com/toutiao-ranking";
        RankingDataCollector collector = RankingParserFactory.createParser("toutiao", url);
        List<String> titles = collector.collectData(url);
        System.out.println("Collected Titles: " + titles);
    }
}

通过这样的设计,您可以轻松地添加新的数据来源或更改现有数据源的解析逻辑,只需实现 RankingPageParser 抽象类或扩展 RankingDataCollector 接口即可。这种设计模式使得代码更加模块化和易于维护。

相关推荐
seeyoutlb3 分钟前
微服务全局日志处理
java·python·微服务
码界奇点18 分钟前
Java Web学习 第15篇jQuery从入门到精通的万字深度解析
java·前端·学习·jquery
雨落秋垣20 分钟前
手搓 Java 的用户行为跟踪系统
java·开发语言·linq
盖世英雄酱5813625 分钟前
java深度调试技术【第六七八章:宽字节与多字节】
java·后端
爱丽_1 小时前
深入理解 Java Socket 编程与线程池:从阻塞 I/O 到高并发处理
java·开发语言
济南壹软网络科技有限公司1 小时前
云脉IM的高性能消息路由与离线推送机制摘要:消息的“零丢失、低延迟”之道
java·即时通讯源码·开源im·企业im
Seven971 小时前
剑指offer-46、孩⼦们的游戏(圆圈中最后剩下的数)
java
serendipity_hky2 小时前
互联网大厂Java面试故事:核心技术栈与场景化业务问题实战解析
java·spring boot·redis·elasticsearch·微服务·消息队列·内容社区
我真不会起名字啊2 小时前
C、C++中的sprintf和stringstream的使用
java·c语言·c++
十点摆码2 小时前
Spring Boot2 使用 Flyway 管理数据库版本
java·flyway·数据库脚本·springboo2·数据库脚本自动管理