最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
当前位置: 首页 - 科技 - 知识百科 - 正文

asp.net采集页面上所有图像图片资源的具体方法

来源:懂视网 责编:小采 时间:2020-11-27 22:37:58
文档

asp.net采集页面上所有图像图片资源的具体方法

asp.net采集页面上所有图像图片资源的具体方法:有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是WebClient,WebRequest等等,今天主要说一下,对于一个URI地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。 /// <summary> /// 下载指定UR
推荐度:
导读asp.net采集页面上所有图像图片资源的具体方法:有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是WebClient,WebRequest等等,今天主要说一下,对于一个URI地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。 /// <summary> /// 下载指定UR

有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是WebClient,WebRequest等等,今天主要说一下,对于一个URI地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。

/// <summary>
 /// 下载指定URL下的所有图片
 /// </summary>
 public class WebPageImage
 {
 /// <summary>
 /// 获取网页中全部图片
 /// </summary>
 /// <param name="url">网页地址</param>
 /// <param name="charSet">网页编码,为空自动判断</param>
 /// <returns>全部图片显示代码</returns>
 public string getImages(string url, string charSet)
 {
 string s = getHtml(url, charSet);
 return getPictures(s, url);
 }

 /// <summary>
 /// 获取网页中全部图片
 /// </summary>
 /// <param name="url">网址</param>
 /// <returns>全部图片代码</returns>
 public string getImages(string url)
 {
 return getImages(url, "");
 }

 string doman(string url)
 {
 Uri u = new Uri(url);
 return u.Host;
 }

 /// <summary>
 /// 获取网页内容
 /// </summary>
 /// <param name="url">网站地址</param>
 /// <param name="charSet">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
 /// <returns></returns>
 string getHtml(string url, string charSet)
 {
 WebClient myWebClient = new WebClient();
 //创建WebClient实例myWebClient 
 // 需要注意的: 
 //有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等 
 //这是就要具体问题具体分析比如在头部加入cookie 
 // webclient.Headers.Add("Cookie", cookie); 
 //这样可能需要一些重载方法。根据需要写就可以了 

 //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。 
 myWebClient.Credentials = CredentialCache.DefaultCredentials;
 //如果服务器要验证用户名,密码 
 //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
 //myWebClient.Credentials = mycred; 
 //从资源下载数据并返回字节数组。(加@是因为网址中间有"/"符号) 
 byte[] myDataBuffer = myWebClient.DownloadData(url);
 string strWebData = Encoding.Default.GetString(myDataBuffer);

 //获取网页字符编码描述信息 
 Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
 string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
 if (charSet == null || charSet == "")
 charSet = webCharSet;

 if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
 strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
 return strWebData;
 }

 string getPictures(string data, string url)
 {
 MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
 string s = string.Empty;
 for (int i = 0; i < ps.Count; i++)
 {
 pictures p = new pictures(ps[i].Value, url);
 s += p.GetHtml + "<br />" + Environment.NewLine;
 }
 return s;
 }

 /// <summary>
 /// 图片实体
 /// 图片文件属性处理类
 /// </summary>
 public class pictures
 {
 public pictures(string strHtml, string baseUrl)
 {
 _html = strHtml;
 Uri u1 = new Uri(baseUrl);
 _doman = u1.Host;
 _baseUrl = u1.Scheme + "://" + _doman;
 setSrc();
 }

 private string _html = string.Empty;
 private string _baseUrl = string.Empty;
 private string _doman = string.Empty;

 public string GetHtml
 {
 get { return _html; }
 }

 public string Alt
 {
 get
 {
 return GetAttribute("alt")[0];
 }
 }

 public string Src
 {
 get
 {
 string s = GetAttribute("src")[0];
 return s;
 }
 }

 /// <summary>
 /// 根据基路径把相对路径转换成绝对径
 /// </summary>
 /// <param name="baseUrl">基础路径</param>
 /// <param name="u">待转换的相对路径</param>
 /// <returns>绝对路径</returns>
 public string absUrl(string baseUrl, string u)
 {
 Uri ub = new Uri(baseUrl);
 Uri ua = new Uri(ub, u);
 return ua.AbsoluteUri;
 }

 private void setSrc()
 {
 string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
 string src = GetAttribute("src")[0].ToLower();
 if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
 {
 src = absUrl(_baseUrl, src);
 string s = "src=\"" + src + "\"";
 _html = Regex.Replace(_html, strPattern, s);
 }
 }

 /// <summary>
 /// 获取HTML代码中标签属性
 /// </summary>
 /// <param name="strHtml">HTML代码</param>
 /// <param name="strAttributeName">属性名称</param>
 /// <returns>属性值集合</returns>
 private string[] GetAttribute(string strAttributeName)
 {
 List<string> lstAttribute = new List<string>();
 string strPattern = string.Format(
 @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
 strAttributeName
 );
 MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
 foreach (Match m in matchs)
 {
 lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
 }
 if (lstAttribute.Count == 0) lstAttribute.Add("");
 return lstAttribute.ToArray();
 }
 }
 }

调用:

new WebPageImage().getImages(http://www.sina.com)

结果:

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文档

asp.net采集页面上所有图像图片资源的具体方法

asp.net采集页面上所有图像图片资源的具体方法:有时我们需要采集一些信息到自己的数据库,本地磁盘,我们经常使用的是WebClient,WebRequest等等,今天主要说一下,对于一个URI地址,采集这个页面上所有的图像资源,下面是源代码,供大家参考,学习。 /// <summary> /// 下载指定UR
推荐度:
标签: 图片 资源 方法
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top