【Python】爬虫爬取各大年夜网站往事(一)

  作者简历地址:http://resume.hackycoder.cn

  比来在进修机械进修算法,分为回归,分类,聚类等,在进修过程当中苦于没有数据做演习,就想爬取一下国际各大年夜网站的往事,经过练习,然后对以后的往事做一个分类猜测。在如许的配景之下,就末尾了我的爬虫之路。

  国际各大年夜往事网站汇总(未完待续):

  搜狐往事:

  网易往事

  未完待续。。。

  在这个过程当中主要用到了和两个包,以搜狐往事为例,做了一个复杂的爬取内容的爬虫,没有做任何的优化等后果,因此会出现假逝世等状况。

  在上述代码运转过程当中,会碰到一些后果,招致爬虫运转中缀,速度慢等后果。下面列出来几种后果:

  关于代理效劳器的后果

  关于404等HTTP形状码的后果

  关于速度慢的后果

  代理效劳器

  可以从网上寻觅一些代理效劳器,然后经过设置爬虫的代理从而处理IP的后果。代码以下:

  关于形状后果,假设寻觅不到网页则直接舍弃,因为抛弃大年夜批的网页不影响以后的任务。

  关于速度慢的后果,可以采取多过程的方法停止爬取。在剖析完网址以后,可以在中应用有序的集协作为一个队列,既处理了重复的后果,又处理了多过程的后果。(暂未完成)

  昨天早晨测验测验运转了一下,爬取搜狐往事网的局部网页,大年夜约是多个网页,从而解析出来了多条往事,在网速为将近的状况下,破费了的时间,大年夜约是18分钟摆布。

  后果图


上一篇:Word2010期末测验题 下一篇:没有了
  • 版权声明:内容来自互联网不代表本站观点,2020-04-01发表于 考试培训栏目。
  • 转载请注明: 【Python】爬虫爬取各大年夜网站往事(一)| 考试培训 +复制链接