C#网页数据采集问题

清风易水发布于 2010-11-24 22:25， 1361 次点击

怎样才能用C#从网页中下载源代码，并且获取其中关键字（如地址、电话的信息等）并且获取对应的超链接（由于其他超链接过多，很乱），求教高手，谢谢....

6 回复

saitor2010-11-25 11:19

httpwebrequest,正则。

yms1232010-11-25 11:32

不用正则的话
搜索下载这个.NET程序包
HtmlAgilityPack
这个程序包的特点就是可以将HTML代码当作XML来处理
并且好处就是支持非良构的HTML代码结构
比如
<br>
等有开始没结束标记的网页照样能解析。

北京的晚秋2010-11-25 12:21

我比较喜欢自己写程序，抓取网页信息，既然是动态在网站信息，那么所有的网页就应该有相似在东西，找到这些规律后，将网页以txt的方式打开读取

比较笨在方法

清风易水2010-11-25 13:15

回复 2楼 saitor

我也用了正则，但获取超链接那一块比较难弄，从很多超链接中找到一个合适的还是比较难弄的，有什么好办法不？谢谢

清风易水2010-11-25 13:16

回复 3楼 yms123

感觉正则简便一点，不过我刚学，什么都不会。。。

清风易水2010-11-25 13:16

回复 4楼北京的晚秋

呵呵，放入字符串就好了。。。