![]() |
#2
外部三电铃2010-04-11 13:50
|

class S(SGMLParser):
'''取链接的'''
def pachong(url):
a=urllib2.urlopen(url)
parser=S()
parser.feed(a.read())
b=parser.urls #HTML里取得的链接列表
if b:return b
def main():
while True:
url=q.get()
c=pachong(url)
if c:
for url in c:
print url
q.put(url)
q=Queue()
q.put('http://www.')
for i in range(10):
t=threading.Thread(target=main)
t.start()
'''取链接的'''
def pachong(url):
a=urllib2.urlopen(url)
parser=S()
parser.feed(a.read())
b=parser.urls #HTML里取得的链接列表
if b:return b
def main():
while True:
url=q.get()
c=pachong(url)
if c:
for url in c:
print url
q.put(url)
q=Queue()
q.put('http://www.')
for i in range(10):
t=threading.Thread(target=main)
t.start()
其中会带有处理链接的代码,但是这些应该不怎么影响爬虫的。。 感觉爬的就慢。。。
[ 本帖最后由 pypro 于 2010-4-11 13:34 编辑 ]