用AI写的【实时文件搜索引擎】python源码【找资源】

我想实现一个实时文件搜索网页,输入要搜索的文件关键字,后台不断爬取文件,并同时边把爬取的文件实时展示在网页上,比如"视频",就会把所有视频文件的链接和文件名和来源页链接实时展示出来,点链接可以跳转,只要不关闭网页,就一直爬取显示。

第一步:演示

python 复制代码
from flask import Flask, render_template_string, request, Response  # 新增Response支持SSE
import threading
import time
import json
import requests
from bs4 import BeautifulSoup

app = Flask(__name__)

# 全局变量
is_crawling = False
crawl_thread = None
results_stream = []  # 存储推送结果流

# 增强版HTML页面,支持SSE实时接收
HTML_TEMPLATE = '''
<!DOCTYPE html>
<html lang="zh">
<head>
    <meta charset="UTF-8">
    <title>实时文件搜索引擎</title>
    <style>
        body { font-family: Arial, sans-serif; margin: 40px; }
        input[type=text] { width: 300px; padding: 10px; font-size: 16px; }
        button { padding: 10px 20px; font-size: 16px; margin-left: 10px; }
        .file-item { 
            border-bottom: 1px solid #eee; padding: 15px 0; 
            background: #f9f9f9; border-radius: 8px; margin: 10px 0; 
            transition: all 0.3s;
        }
        .file-item:hover { transform: translateY(-2px); box-shadow: 0 4px 8px rgba(0,0,0,0.1); }
        .filename { 
            color: #1a0dab; font-weight: bold; font-size: 1.1em; 
        }
        .source { 
            color: #006621; font-size: 0.9em; margin: 5px 0; 
        }
        .link { 
            color: #0066cc; text-decoration: none; word-break: break-all; 
            display: block; margin: 8px 0; font-size: 0.95em;
        }
        .timestamp { 
            color: #666; font-size: 0.8em; 
        }
        #status { margin: 20px 0; padding: 10px; background: #e6f7ff; border-radius: 4px; }
    </style>
</head>
<body>
    <h1>🔍 实时文件搜索引擎</h1>
    <div>
        <input type="text" id="keyword" placeholder="请输入要搜索的文件类型,例如:视频、文档、PDF..." value="视频">
        <button onclick="startSearch()">开始搜索</button>
        <button onclick="stopSearch()">停止搜索</button>
    </div>
    <div id="status">等待用户操作...</div>
    <hr>
    <div id="results"></div>

    <script>
        let eventSource = null;

        function startSearch() {
            const keyword = document.getElementById('keyword').value;
            if (!keyword) return alert("请输入关键词!");
            
            // 关闭旧连接
            if (eventSource) eventSource.close();
            
            // 更新状态
            document.getElementById('status').innerHTML = `正在搜索 '${keyword}'... <span style="color:green">● 连接中</span>`;
            document.getElementById('results').innerHTML = '';
            
            // 创建SSE连接
            eventSource = new EventSource('/stream?keyword=' + encodeURIComponent(keyword));
            
            eventSource.onmessage = function(event) {
                const data = JSON.parse(event.data);
                const resultsDiv = document.getElementById('results');
                
                const item = document.createElement('div');
                item.className = 'file-item';
                item.innerHTML = `
                    <div class="filename">${data.filename}</div>
                    <div class="source">来源页: ${data.source}</div>
                    <a href="${data.url}" target="_blank" class="link">${data.url}</a>
                    <div class="timestamp">发现时间: ${data.timestamp}</div>
                `;
                resultsDiv.prepend(item); // 最新结果在最上面
            };
            
            eventSource.onerror = function() {
                document.getElementById('status').innerHTML += " ● 连接异常";
            };
            
            // 开始爬取
            fetch('/start?keyword=' + encodeURIComponent(keyword));
        }

        function stopSearch() {
            if (eventSource) {
                eventSource.close();
                document.getElementById('status').innerHTML += " <span style='color:orange'>● 已手动断开</span>";
            }
            fetch('/stop');
        }
    </script>
</body>
</html>
'''

@app.route('/')
def index():
    return render_template_string(HTML_TEMPLATE)

@app.route('/start')
def start_crawling():
    global is_crawling, crawl_thread
    keyword = request.args.get('keyword', '视频')
    
    if not is_crawling:
        is_crawling = True
        crawl_thread = threading.Thread(target=crawl_task, args=(keyword,))
        crawl_thread.start()
        return "爬取已启动"
    else:
        return "已在爬取中..."

@app.route('/stop')
def stop_crawling():
    global is_crawling
    is_crawling = False
    return "已发送停止信号"

@app.route('/stream')
def stream():
    """SSE端点,实时推送结果"""
    def generate():
        while True:
            if len(results_stream) > 0:
                # 取出最新一条
                result = results_stream.pop(0)
                yield 'data: {}\n\n'.format(json.dumps(result))
            else:
                time.sleep(0.1)  # 小休一下避免过度占用CPU
    
    return Response(generate(), mimetype='text/event-stream')

def crawl_task(keyword):
    """模拟爬取任务"""
    global is_crawling
    mock_urls = [
        ("教学视频.mp4", "https://example.com/video1.mp4", "https://example.com/page1"),
        ("宣传片_高清.avi", "https://mirror-site.org/vid.avi", "https://example.com/page2"),
        ("讲座回放.flv", "https://cdn-host.net/flv/lecture.flv", "https://edu-site.com/lectures"),
        ("培训资料.mkv", "https://training-site.com/materials.mkv", "https://training-site.com/courses"),
        ("演示文稿.mov", "https://media-host.com/demo.mov", "https://corp-site.com/media")
    ]
    
    while is_crawling:
        for filename, link, source in mock_urls:
            if not is_crawling:
                break
            result_item = {
                "filename": f"[{keyword}]{filename}",
                "url": link,
                "source": source,
                "timestamp": time.strftime("%H:%M:%S")
            }
            print(f"找到文件并推送: {result_item}")
            results_stream.append(result_item)  # 添加到推送队列
            time.sleep(3)
    print("爬取结束")

if __name__ == '__main__':
    app.run(port=5000, debug=True, use_reloader=False)
相关推荐
野生技术架构师14 小时前
牛客网Java 高频面试题总结(2025最新版)
java·开发语言·面试
一只鹿鹿鹿14 小时前
系统安全设计方案书(Word)
开发语言·人工智能·web安全·需求分析·软件系统
铁锹少年14 小时前
当多进程遇上异步:一次 Celery 与 Async SQLAlchemy 的边界冲突
分布式·后端·python·架构·fastapi
梨轻巧14 小时前
pyside6常用控件:QCheckBox() 单个复选框、多个复选框、三态模式
python
持梦远方14 小时前
【C++日志库】启程者团队开源:轻量级高性能VoyLog日志库完全指南
开发语言·c++·visual studio
聪明努力的积极向上14 小时前
【C#】HTTP中URL编码方式解析
开发语言·http·c#
寒秋丶14 小时前
Milvus:集合(Collections)操作详解(三)
数据库·人工智能·python·ai·ai编程·milvus·向量数据库
寒秋丶14 小时前
Milvus:Schema详解(四)
数据库·人工智能·python·ai·ai编程·milvus·向量数据库
梨轻巧14 小时前
pyside6常用控件:QComboBox() 下拉菜单
python
嵌入式-老费14 小时前
自己动手写深度学习框架(快速学习python和关联库)
开发语言·python·学习