编程论坛's Archiver

神的禁卫军 发表于 2008-5-4 10:03

请教会htmlparser的人

我现在要做一个基于sohu博客的社区发现系统,解析网页用的是htmlparser。开始时我直接是解析博客里面的<a href=></a>标签,例如:Parser p=new Parser("http://shihb.blog.sohu.com/");NodeFilter filter=new TagNameFilter("a");NodeList nodelist=p.parser(filter);这样<a></a>标签里面的链接就能被解析出来(包括很多没用的链接)。但后来发现,就像这个博客:http://shihb.blog.sohu.com/,里面左下角的好友那部分的博客链接是不在http://shihb.blog.sohu.com/这个页面的源码上的,好像是通过ajax或者javascript之类的显示出来的,如图。这种方式显示的链接怎样去解析??不局限于htmlparser,大侠可以推荐一个好的框架。
[attach]34423[/attach]

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.