正则表达式
规则适用于所有编程语言
py
container_pattern = (
r'<div class="container">\s*'#路过,不要
r'(<div class="title-wrapper">[\s\S]*?</div>\s*'
r'<div class="stats">[\s\S]*?</div>)\s*'#捕获
r'</div>\s*'#路过
r'<div class="chart-container">\s*'#路过
r'(<div id="chart"[^>]*></div>)\s*' #捕获
r'</div>\s*</div>'#路过
)
container_match = re.search(container_pattern, source_html, re.DOTALL)
正则在这里只做一件事:在源文件里找一段文字。
- 没有括号 (...) 的部分 → 只是「路过」,用来定位
- 有括号 (...) 的部分 → 才会被「抓出来」,放进 group(1)、group(2)