注册 登录
编程论坛 ASP.NET技术论坛

C#网页数据采集问题

清风易水 发布于 2010-11-24 22:25, 1361 次点击
怎样才能用C#从网页中下载源代码,并且获取其中关键字(如地址、电话的信息等)并且获取对应的超链接(由于其他超链接过多,很乱),求教高手,谢谢....
6 回复
#2
saitor2010-11-25 11:19
httpwebrequest,正则。
#3
yms1232010-11-25 11:32
不用正则的话
搜索下载这个.NET程序包
HtmlAgilityPack
这个程序包的特点就是可以将HTML代码当作XML来处理
并且好处就是支持非良构的HTML代码结构
比如
<br>
等有开始没结束标记的网页照样能解析。
#4
北京的晚秋2010-11-25 12:21
我比较喜欢自己写程序,抓取网页信息,既然是动态在网站信息,那么所有的网页就应该有相似在东西,找到这些规律后,将网页以txt的方式打开读取
比较笨在方法
#5
清风易水2010-11-25 13:15
回复 2楼 saitor
我也用了正则,但获取超链接那一块比较难弄,从很多超链接中找到一个合适的还是比较难弄的,有什么好办法不?谢谢
#6
清风易水2010-11-25 13:16
回复 3楼 yms123
感觉正则简便一点,不过我刚学,什么都不会。。。
#7
清风易水2010-11-25 13:16
回复 4楼 北京的晚秋
呵呵,放入字符串就好了。。。
1