注册 登录
编程论坛 J2EE论坛

请教网页数据抓取问题

nini8060 发布于 2009-08-12 11:18, 1111 次点击
请教各位大侠一个问题:
如何才能把百度百科中的词条解释页面最下面的“相关词条”中的词条抓取到自己的网站页面上,包括词条和链接,在自己网站页面上点击词条之后就能链接到百度百科的词条解释页面。例如:http://baike.baidu.com/view/598725.htm
3 回复
#2
淮少智2009-09-05 01:36
真不会!
#3
qingxrong2009-09-06 05:22
程序代码:
package org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class TestHtmlparser {
    /**
     * @author rrong_m
     * @throws ParserException
     */
    public static void getWords(String url) throws ParserException {
        Parser parser = new Parser(url);
        NodeFilter filter = new HasAttributeFilter("id", "word_more_con");
        NodeList nodelist = parser.extractAllNodesThatMatch(filter);
        NodeFilter filter1 = new NodeClassFilter(LinkTag.class);
        nodelist = nodelist.extractAllNodesThatMatch(filter1, true);
        for (int i = 0; i < nodelist.size(); i++) {
            LinkTag link = (LinkTag) nodelist.elementAt(i);
            System.out.println(link.getLinkText() + ":" + link.getLink());
        }
    }
    public static void main(String[] args) throws ParserException {
        getWords("http://baike.baidu.com/view/598725.htm");
    }
}
#4
qingxrong2009-09-06 05:23
本来想发个测试结果,提示广告!
1