编程论坛
注册
登录
编程论坛
→
Python论坛
{爬虫问题}网页数量不知,如何确定线程何时结束? 而且要保证爬完。
pypro
发布于 2010-04-15 16:08, 1279 次点击
{爬虫问题}网页数量不知,如何确定线程何时结束?
而且要保证爬完。
2 回复
#2
外部三电铃
2010-04-15 20:01
多线程爬虫吧,每采集一个页面的时候在控制台用print输出一段内容,比如“正在采集XXX……”,这样采集的时候控制台会接连不断的输出内容。
如果超过5分钟不输出内容,基本上算是爬完了
#3
pypro
2010-04-15 21:10
回复 2楼 外部三电铃
每个线程任务设定的是从队列里取一个URL爬
由于不知道具体网页数量,队列里的结束标记也不好放
理论上应该可以设定一段时间内没有输出就结束线程
但是这个PYTHON能实现不?
1