抓取网页上公开可见的图片。涉及知识点:
- 异步编程:async和await进行异步编程,将耗时的操作放在后台线程中进行,并使用await关键字等待操作完成,不阻塞主线程的执行。
- HttpClient:用来发送http请求,并获取响应。可以使用GetAsync发送Get请求,并使用ReadAsStringAsync方法将响应内容读取为字符串。
- HttpResponseMessage:http响应的消息,其中包含响应的状态码、头信息、内容等。使用IsSuccessStatusCode判断响应是否成功。
- HtmlAgilityPack库:用来解析HTML文档,使用LoadHtml方法从字符串中加载html内容,并创建HtmlDocument对象。使用Descendants方法获取指定标签元素。
- Linq查询:获取img元素进行筛选和转换,使用Select获取每个img元素的src属性值,并使用Where进行过滤。
- 图片下载:使用HttpClient.GetAsync方法下载图片,并使用ReadAsStreamAsync方法将下载的图片内容作为流进行处理。使用Path类获取图片文件名和指定保存路径,使用FileStream类创建文件流将图片保存到本地。
- 异常处理:try-catch
csusing HtmlAgilityPack; public async void GetImagesFromWeb(string ip,string webPage)//ip,webPage:html网页 { string webUrl = ip+webPage; //抓取图片的网页url string saveDir = "E:\\File_work\\files\\ResultSaveDir\\ImagesFromWeb"; HttpClient httpClient = new HttpClient(); try { //向指定url发送HttpGet请求,并返回一个表示http响应的httpResponseMessage对象 HttpResponseMessage response =await httpClient.GetAsync(webUrl); //HttpResponseMessage包含了响应的状态码、头信息、内容等 if (response.IsSuccessStatusCode) //状态码为200-299,,则IsSuccessStatusCode属性为true { string htmlContent=await response.Content.ReadAsStringAsync();//将http响应的内容作为字符串读取 //使用HtmlAgilityPack解析html文档 HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(htmlContent);//从字符串中加载html内容,并创建HtmlDocument对象 //获取img元素中的src属性,html中的img元素用于向网页中插入图像,src属性制定了要显示的图片文件的url var imageUrls = doc.DocumentNode.Descendants("img") //从根节点开始获取所有的img标签 .Select(img => img.GetAttributeValue("src", null))//获取每个img的src属性值 .Where(src => !string.IsNullOrEmpty(src)); foreach(var imgUrl in imageUrls) { try { HttpResponseMessage imgResponse=await httpClient.GetAsync(ip+imgUrl); if (imgResponse.IsSuccessStatusCode) { Stream imgStream=await imgResponse.Content.ReadAsStreamAsync(); //获取图片文件名 string imgName = Path.GetFileName(imgUrl); //指定保存路径 string savePath = Path.Combine(saveDir, imgName); FileStream fileStream = new FileStream(savePath,FileMode.Create); await imgStream.CopyToAsync(fileStream); } else { Console.WriteLine($"图片下载失败: {imgUrl}. 状态码: {imgResponse.StatusCode}"); } } catch(Exception ex) { Console.WriteLine($"图片下载出错: {imgUrl}: {ex.Message}"); } } Console.WriteLine($"{imageUrls.Count()} 图片下载成功."); } else { Console.WriteLine($"页面请求失败. 错误码: {response.StatusCode}"); } } catch(Exception ex) { Console.WriteLine(ex.Message); } }
C#语言练手小功能
赵 XiaoQin2024-01-11 17:27
相关推荐
沐土Arvin9 分钟前
前端图片上传组件实战:从动态销毁Input到全屏预览的全功能实现找不到、了12 分钟前
Spring-Beans的生命周期的介绍Risehuxyc30 分钟前
备份C#的两个类csdn_aspnet32 分钟前
C# WinForm treeView 全选反选 点击过快节点选中状态未选中或选中状态未取消(・Д・)ノ36 分钟前
python打卡day29若水晴空初如梦36 分钟前
QT聊天项目DAY11爱编程的鱼1 小时前
C#接口(Interface)全方位讲解:定义、特性、应用与实践有杨既安然1 小时前
Python高级特性深度解析:从熟练到精通的跃迁之路为美好的生活献上中指2 小时前
java每日精进 5.18【文件存储】winfredzhang3 小时前
使用Python和Selenium打造一个全网页截图工具