Python网页爬虫制作DIY实际操作

Python网页爬虫在实际的使用中需要我们注意很多的地方，其实有的东西大家看着难但是在实际操作起来的话都很简单。下面我们就来学习下如何自己动手编写一个Python网页爬虫。

创新互联-专业网站定制、快速模板网站建设、高性价比塔河网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式塔河网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖塔河地区。费用合理售后完善，10多年实体公司更值得信赖。

这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。
代码如下：

 
 
   
  
  #!/usr/bin/env python    
  
  # -*- coding: GBK -*-    
  
  import urllib    
  
  from sgmllib import SGMLParser    
  
  class URLLister(SGMLParser):    
  
  def reset(self):    
  
  SGMLParser.reset(self)    
  
  self.urls = []    
  
  def start_a(self, attrs):    
  
  href = [v for k, v in attrs if k == 'href']    
  
  if href:    
  
  self.urls.extend(href)    
  
  url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
ngShuoShenMo/'   
  
  sock = urllib.urlopen(url)    
  
  htmlSource = sock.read()    
  
  sock.close()    
  
  #print htmlSource    
  
  f = file('jingangjing.html', 'w')    
  
  f.write(htmlSource)    
  
  f.close()    
  
  mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
gJingShuoShenMo/'   
  
  parser = URLLister()    
  
  parser.feed(htmlSource)    
  
  for url in parser.urls:    
  
  myurl = mypath + url    
  
  print "get: " + myurl    
  
  sock2 = urllib.urlopen(myurl)    
  
  html2 = sock2.read()    
  
  sock2.close()    
  
  # 保存到文件    
  
  print "save as: " + url    
  
  f2 = file(url, 'w')    
  
  f2.write(html2)    
  
  f2.close()

以上就是对Python网页爬虫在编写过程中的详细介绍。

【编辑推荐】

Python脚本解决在游戏开发中的困难
简述Python语言经验总结
Python对象主要特征解析
Python显示UTF-8中文文本具体操作方法讲解
Python绑定C++程序具体实现方法浅谈

分享题目：Python网页爬虫制作DIY实际操作
文章地址：http://www.shufengxianlan.com/qtweb/news45/394295.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容