Tôi có tệp có hơn 160.000 url, trong đó các trang tôi muốn xóa một số thông tin. Kịch bản trông gần như thế này:Cạo 160.000 trang - quá chậm
htmlfile = urllib2.urlopen(line)
htmltext = htmlfile.read()
regexName = '"></a>(.+?)</dd><dt>'
patternName = re.compile(regexName)
name = re.findall(patternName,htmltext)
if name:
text = name[0]
else:
text = 'unknown'
nf.write(text)
Tác phẩm nào, nhưng rất, rất chậm. Nó sẽ mất hơn bốn ngày để cạo tất cả 160.000 trang. Bất kỳ đề xuất để tăng tốc độ nó lên?
Sử dụng đa luồng hoặc một yêu cầu không đồng bộ http thư viện như [grequests] (https://github.com/kennethreitz/grequests) – Blender
Hoặc sử dụng hay gây sự. http://scrapy.org/ – Darek
Cảm ơn các đề xuất của bạn, nhưng tôi không biết cách sử dụng grequetsts hoặc scrapy. Tôi là một người mới rất lớn ... – ticktack