浅析工具dirpro v1.2源码

前言

工具简介

dirpro 是一款由 python 编写的目录扫描器专业版,操作简单,功能强大,高度自动化
自动根据返回状态码和返回长度,对扫描结果进行二次整理和判断,准确性非常高

项目地址

项目已在github开源,求个star嘻嘻嘻

bash 复制代码
https://github.com/coleak2021/dirpro

已实现功能

  • 可自定义扫描线程
  • 导入url文件进行批量扫描并分别保存结果
  • 状态码429检测,自动退出程序并提示设置更小的线程
  • 每扫描10%自动显示扫描进度
  • 可自定义扫描字典文件
  • 可自定义代理流量
  • 自动使用随机的User-Agent
  • 自动规范输入的目标url格式,根据输入的url动态生成敏感目录
  • 强大的默认字典top10000
  • 自动根据返回状态码和返回长度对扫描结果进行二次整理和判断
  • 扫描结果自动生成 域名+时间 格式的防同名文件名 并保存到scan_result目录中

扫描参数

bash 复制代码
options:
  -h, --help  show this help message and exit
  -u U        url
  -t T        thread:default=30
  -w W        dirfile path
  -a A        proxy,such as 127.0.0.1:7890
  -f F        urlfile,urls in the file
  -b          fastly to find backup files and sensitive files

源码分析

目录结构

dirpro.py

项目入口,接受传入的参数,并调用函数进行后续操作

python 复制代码
    if not args.f:
        rooturl = args.u.strip('/')
        (time1,ret)=__start(args,rooturl)
        __end(rooturl,time1,ret)
    else:
        urlfile=open(args.f, 'r')
        urls = urlfile.read().splitlines()
        for rooturl in urls:
            rooturl = rooturl.strip('/')
            (time1,ret) = __start(args, rooturl)
            __end(rooturl,time1,ret)

判断是否传入url文件,初始化处理掉url末尾的/,调用__start(args,rooturl)返回(time1,ret),然后调用__end(rooturl,time1,ret)对扫描结果进行处理

start.py

ini 复制代码
    sem = threading.Semaphore(args.t)
    urlList = []
    urlList.extend(searchFiles(rooturl))

限制线程的最大数,清空urlList(防止多url文件扫描时前面生成的urllist影响后续url扫描),调用searchFiles(rooturl)生成敏感目录并将结果加入到urllist中

less 复制代码
    if args.a:
        proxies['http'] = f"http://{args.a}"
        proxies['https'] = f"http://{args.a}"

判断是否加入代理

ini 复制代码
    if args.b:
        sem = threading.Semaphore(5)
        searchdir(urlList,sem,rooturl)

    else:
        if not args.w:
            defaultword = './wordlist/default'
        else:
            defaultword = args.w

        f = open(defaultword, 'r')
        files = f.read().splitlines()
        for file in files:
            urlList.append(f'{rooturl}/{file}')
        f.close()
        searchdir(urlList,sem,rooturl)

    return (time_1,ret)

判断扫描方式是快速扫描还是普通扫描,快速扫描需要设置小的线程(快速扫描自带的字典比较小),普通扫描判断是否传入字典文件,将字典中的dir加载到url中,调用 searchdir(urlList,sem,rooturl),最后返回(time_1,ret)

backup.py

searchFiles(rooturl)生成敏感目录并将结果加入到urllist中

python 复制代码
    for file in FILE_LIST:
        urlList.append(f'{rootUrl}/{file}')
        urlList.append(f'{rootUrl}/{file}.bak')
        urlList.append(f'{rootUrl}/{file}~')
        urlList.append(f'{rootUrl}/{file}.swp')
        urlList.append(f'{rootUrl}/.{file}.swp')
        urlList.append(f'{rootUrl}/.{file}.un~')

加入备份文件目录

python 复制代码
    SOURCE_LIST = [
        '.svn', '.svn/wc.db', '.svn/entries', # svn
        '.git/', '.git/HEAD', '.git/index', '.git/config', '.git/description', '.gitignore' # git
        '.hg/', # hg
        'CVS/', 'CVS/Root', 'CVS/Entries', # cvs
        '.bzr', # bzr
        'WEB-INF/web.xml', 'WEB-INF/src/', 'WEB-INF/classes', 'WEB-INF/lib', 'WEB-INF/database.propertie', # java
        '.DS_Store', # macos
        'README', 'README.md', 'README.MD', # readme
        '_viminfo', '.viminfo', # vim
        '.bash_history',
        '.htaccess'
    ]
    for source in SOURCE_LIST:
        urlList.append(f'{rootUrl}/{source}')

加入源代码文件目录

ini 复制代码
    suffixList = ['.rar','.zip','.tar','.tar.gz', '.7z']
    keyList = ['www','wwwroot','site','web','website','backup','data','mdb','WWW','新建文件夹','ceshi','databak',
    'db','database','sql','bf','备份','1','2','11','111','a','123','test','admin','app','bbs','htdocs','wangzhan']
    num1 = rootUrl.find('.')
    num2 = rootUrl.find('.', num1 + 1)
    keyList.append(rootUrl[num1 + 1:num2])
    for key in keyList:
        for suff in suffixList:
            urlList.append(f'{rootUrl}/{key}{suff}')

加入压缩文件目录

rely.py

扫描功能集中在这个文件

ruby 复制代码
def __random_agent():
    user_agent_list = [{'User-Agent': 'Mozilla/4.0 (Mozilla/4.0; MSIE 7.0; Windows NT 5.1; FDM; SV1; .NET CLR 3.0.04506.30)'},{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'},
......]
    return random.choice(user_agent_list)

使用随机user_agent

ini 复制代码
def searchdir(urlList,sem,rooturl):
    global d
    global _sem
    global _list
    d=0
    _sem=sem
    thread_array = []
    n=len(urlList)
    k=int (n/10)
    for i in range(1,10):
        _list.append(k*i)
    print(f"[*]开始扫描{rooturl}")
    for i in urlList:
        t = Thread(target= __get,args=(i,))
        thread_array.append(t)
        t.start()
    for t in thread_array:
        t.join()

_list存放进度条信息,for循环将调用get方法加入线程列表,通过t.join()设置除非子线程全部运行完毕,否则主线程一直挂起

python 复制代码
def __get(url):
    count = 0
    global d
    with _sem:
        while count < 3:
            try:
                r = requests.get(url,headers=__random_agent(),proxies=proxies)
            except:
                count += 1
                continue
            break

    #判断请求是否成功
    if count >= 3:
        print(f'visit failed:{url}')
        return

    l=len(r.text)
    if r.status_code != 404 and r.status_code != 429:
        log = f'{r.status_code:<6}{l:<7}{url}'
        print(log)
    elif r.status_code == 429:
        print('Too Many Requests 429 so that Request terminated,please Set up smaller threads')
        os._exit(0)

    d += 1
    if d in _list:
        print(f"[*]已经扫描{(_list.index(d)+1)*10}%")

    # 添加到ret
    ret.append({
        'status_code': r.status_code,
        'length': l,
        'url': url
    })

with _sem相当于 sem.acquire(), sem.release()

锁定信号的变量sem在线程内阻塞,等待前面的线程执行结束。就是说实际上有多少任务就会开多少线程,只是超过限制的部分线程在线程内阻塞

os._exit(0)

这里判断返回码出现429则退出整个程序,如果用exit()则只能退出子线程

results.py

对扫描结果进行二次整理和判断

python 复制代码
    t=f"./scan_result/{rooturl.split('//')[1].replace(':', '')}{int (time.time())}"
    try:
        f = open(t, 'w',encoding="utf-8")
    except:
        f = open(f"{int (time.time())}", 'w',encoding="utf-8")

设置保存扫描结果的文件名

ini 复制代码
    for result in ret:
        statusCode = result['status_code']
        length = result['length']
        statusCodeMap[statusCode] = statusCodeMap.get(statusCode, 0) + 1
        lenMap[length] = lenMap.get(length, 0) + 1

统计返回长度和状态码的个数

python 复制代码
    for result in ret:
        if result['length'] != maxLength:
            __log(f'{result["status_code"]:<6}{result["length"]:<7}{result["url"]}')
    f.close()
    return t

打印异常的状态码和长度对于的url

end.py

lua 复制代码
    result = __Results(rooturl,ret)
    time2 = time.time()
    print("总共花费: ", time2 - time1, "秒,", f"结果保存在{result}")
    ret.clear()

将ret清空以免影响后续的扫描

相关推荐
李楷杰5 分钟前
PaddlePaddle 开源产业级文档印章识别PaddleX-Pipeline “seal_recognition”模型 开箱即用篇(一)
人工智能·python·开源·ocr·paddlepaddle·印章识别
xingbuxing_py18 分钟前
精华帖分享|浅谈金融时间序列分析与股价随机游走
python·金融·编程·量化交易·理财·量化投资·股市
梓羽玩Python39 分钟前
AI全自动开发神器 Windsurf!Cursor 的强力替代方案!GPT-4o和Claude模型免费用!
人工智能·python·程序员
脸红ฅฅ*的思春期1 小时前
Java安全—log4j日志&FastJson序列化&JNDI注入
java·安全·log4j·fastjson·jndi注入
禾风wyh1 小时前
【Pytorch】Python random 模块
开发语言·python
Python图像识别-12 小时前
基于yolov8、yolov5的鸟类分类系统(含UI界面、训练好的模型、Python代码、数据集)
python·yolo·分类
火龙谷2 小时前
django---tinymce编辑器
开发语言·python·django
凤枭香2 小时前
数字图像处理(c++ opencv):彩色图像处理-彩色基础与彩色模型
开发语言·c++·图像处理·python·opencv
聪明的墨菲特i2 小时前
Python爬虫项目 | 一、网易云音乐热歌榜歌曲
爬虫·python
kali-Myon2 小时前
ctfshow-web入门-SSTI(web369-web372)下
前端·python·学习·web安全·flask·web·ssti