[Java]_[初级]_[以SAX流的方式高效读取XML大文件]

场景

  1. XML文件作为默认utf8格式的文件,它的作用和JSON文件相当。比如可以做为简单的数据存储格式,配置文件,网站的sitemap.xml导航等。它比json强的一点是它还有样式描述文件dtd,可以实现让XML里的结构化数据显示表格样式。
xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
  1. sitemap.xml作为网站的站点地图,提供了固定的格式化数据, 也方便了搜索引擎进行索引。 因此对sitemap.xml的读写功能是比较重要的。那么如何实现大数据量的XML读写才可以节省内存和减少指令的执行?
xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
  xmlns:xhtml="http://www.w3.org/1999/xhtml">
	<url>
	<loc>https://blog.csdn.net/infoworld</loc>
	<priority>1.0</priority>
	<lastmod>2023-07-28</lastmod>
	<changefreq>Daily</changefreq>
	</url>
</urlset>

说明

  1. JSON一样,对XML读用流的方式,可以减少中间的DOM模型的生成,也不需要读取整个XML文件到内存。这样的API不需要借助第三方库,Java标准库里就有。
java 复制代码
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
  1. 流式读取使用SAX模型的方式,从开头按起始标签和结束标签的方式进行读取数据。并需要实现自己的Handler来处理需要的元素。这个Handler就是模板类,它的相关方法会在识别到XML特定的对象是调用,比如属性,起始结束元素,元素值等。
java 复制代码
public boolean readAll(File file){

	SAXParserFactory sf = SAXParserFactory.newInstance();
	boolean result = false;
	try {
	    SAXParser sp = sf.newSAXParser();
	    sp.parse(file,this);
	    logger.info(sitemaps.size()+"");
	    result = true;
	} catch (ParserConfigurationException e) {
	    logger.error(e.getMessage());
	} catch (SAXException e) {
	    logger.error(e.getMessage());
	} catch (IOException e) {
	    logger.error(e.getMessage());
	}

	return result;
}

例子

  1. 以下是读取sitemap.xml文件的Reader实现,Sitemap对象实际就是Map对象。

SitemapReader

java 复制代码
import Sitemap;
import org.apache.log4j.Logger;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class SitemapReader extends DefaultHandler {

    private static Logger logger = Logger.getLogger(SitemapReader.class);

    private ArrayList<Sitemap> sitemaps = new ArrayList<>();
    private Sitemap current;
    private String cPValue;
    private String cPName;

    /**
     * 重置Reader,可以再次读取
     */
    public void reset(){
        sitemaps.clear();
        cPName = null;
        cPValue = null;
        current = null;
    }

    /**
     *
     * @return 读取到的sitemaps;
     */
    public List<Sitemap> getSitemaps(){
        return sitemaps;
    }

    /**
     *
     * @param file
     * @return
     */
    public boolean readAll(File file){
        SAXParserFactory sf = SAXParserFactory.newInstance();
        boolean result = false;
        try {
            SAXParser sp = sf.newSAXParser();
            sp.parse(file,this);
            logger.info(sitemaps.size()+"");
            result = true;
        } catch (ParserConfigurationException e) {
            logger.error(e.getMessage());
        } catch (SAXException e) {
            logger.error(e.getMessage());
        } catch (IOException e) {
            logger.error(e.getMessage());
        }

        return result;
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        if(cPName != null && current != null) {
            cPValue = new String(ch, start, length);
            current.put(cPName,cPValue);
        }
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        cPName = null;
        cPValue = null;

        switch(qName) {
            case "url": {
                sitemaps.add(current);
                current = null;
                break;
            }
        }
    }

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {

        cPName = null;
        cPValue = null;

        switch(qName){
            case "url":{
                current = new Sitemap();
                break;
            }
            default:
                cPName = qName;
        }
    }
}

TestSitemapReader

java 复制代码
import Sitemap;
import SitemapReader;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.junit.runners.JUnit4;

import java.io.File;
import java.net.URL;
import java.util.List;
import java.util.logging.Logger;

@RunWith(JUnit4.class)
public class TestSitemapReader{

    Logger logger = Logger.getLogger(TestSitemapReader.class.getName());

    @Test
    public void testXmlSaxReader(){
        URL resource = this.getClass().getResource("/");
        String path = resource.getPath();

        File file = new File(path+"..\\..\\..\\..\\doc\\tests\\xml\\sitemap.xml");
        SitemapReader sr = new SitemapReader();
        if(sr.readAll(file)){
            List<Sitemap> sitemaps = sr.getSitemaps();
            logger.info(sitemaps.size()+"");
        }

    }
}

参考

  1. SAX方式读取XML文件

  2. SAXParser

相关推荐
呆呆小雅几秒前
C#关键字volatile
java·redis·c#
Monly211 分钟前
Java(若依):修改Tomcat的版本
java·开发语言·tomcat
Ttang234 分钟前
Tomcat原理(6)——tomcat完整实现
java·tomcat
钱多多_qdd14 分钟前
spring cache源码解析(四)——从@EnableCaching开始来阅读源码
java·spring boot·spring
waicsdn_haha16 分钟前
Java/JDK下载、安装及环境配置超详细教程【Windows10、macOS和Linux图文详解】
java·运维·服务器·开发语言·windows·后端·jdk
Q_192849990627 分钟前
基于Spring Boot的摄影器材租赁回收系统
java·spring boot·后端
Code_流苏29 分钟前
VSCode搭建Java开发环境 2024保姆级安装教程(Java环境搭建+VSCode安装+运行测试+背景图设置)
java·ide·vscode·搭建·java开发环境
禁默1 小时前
深入浅出:AWT的基本组件及其应用
java·开发语言·界面编程
Cachel wood1 小时前
python round四舍五入和decimal库精确四舍五入
java·linux·前端·数据库·vue.js·python·前端框架
Code哈哈笑1 小时前
【Java 学习】深度剖析Java多态:从向上转型到向下转型,解锁动态绑定的奥秘,让代码更优雅灵活
java·开发语言·学习