Python网页爬虫制作DIY实际操作

Python网页爬虫在实际的使用中需要我们注意很多的地方,其实有的东西大家看着难但是在实际操作起来的话都很简单。下面我们就来学习下如何自己动手编写一个Python网页爬虫。

创新互联-专业网站定制、快速模板网站建设、高性价比塔河网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式塔河网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖塔河地区。费用合理售后完善,10多年实体公司更值得信赖。

这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。
代码如下:

 
 
 
  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
    ngShuoShenMo/' 
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
    gJingShuoShenMo/' 
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是对Python网页爬虫在编写过程中的详细介绍。

【编辑推荐】

  1. Python脚本解决在游戏开发中的困难
  2. 简述Python语言经验总结
  3. Python对象主要特征解析
  4. Python显示UTF-8中文文本具体操作方法讲解
  5. Python绑定C++程序具体实现方法浅谈

分享题目:Python网页爬虫制作DIY实际操作
文章地址:http://www.shufengxianlan.com/qtweb/news45/394295.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联