注册 登录
编程论坛 Python论坛

{爬虫问题}网页数量不知,如何确定线程何时结束? 而且要保证爬完。

pypro 发布于 2010-04-15 16:08, 1279 次点击
{爬虫问题}网页数量不知,如何确定线程何时结束?
而且要保证爬完。
2 回复
#2
外部三电铃2010-04-15 20:01
多线程爬虫吧,每采集一个页面的时候在控制台用print输出一段内容,比如“正在采集XXX……”,这样采集的时候控制台会接连不断的输出内容。

如果超过5分钟不输出内容,基本上算是爬完了
#3
pypro2010-04-15 21:10
回复 2楼 外部三电铃
每个线程任务设定的是从队列里取一个URL爬

由于不知道具体网页数量,队列里的结束标记也不好放

理论上应该可以设定一段时间内没有输出就结束线程

但是这个PYTHON能实现不?
1