Python实现网页爬虫基本实现代码解读

Python是一款功能强大的计算机程序语言，同时也可以被看做是一款面向对象的通用型语言。它的功能特点比较突出，极大的方便开发人员应用。在这里我们先来一起了解一下有关Python市县网页爬虫的方法。

创新互联建站专注于平邑企业网站建设,成都响应式网站建设公司,成都商城网站开发。平邑网站建设公司,为平邑等地区提供建站服务。全流程按需定制网站，专业设计，全程项目跟踪，创新互联建站专业和态度为您提供的服务

今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读，省点电话费：）这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。

Python实现网页爬虫代码如下：

 
 
 
  
  
  #!/usr/bin/env python  
  
  
  # -*- coding: GBK -*-  
  
  
  import urllib  
  
  
  from sgmllib import SGMLParser  
  
  
  class URLLister(SGMLParser):  
  
  
  def reset(self):  
  
  
  SGMLParser.reset(self)  
  
  
  self.urls = []  
  
  
  def start_a(self, attrs):  
  
  
  href = [v for k, v in attrs if k == 'href']  
  
  
  if href:  
  
  
  self.urls.extend(href)  
  
  
  url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
  
  
  sock = urllib.urlopen(url)  
  
  
  htmlSource = sock.read()  
  
  
  sock.close()  
  
  
  #print htmlSource  
  
  
  f = file('jingangjing.html', 'w')  
  
  
  f.write(htmlSource)  
  
  
  f.close()  
  
  
  mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
  
  
  parser = URLLister()  
  
  
  parser.feed(htmlSource)  
  
  
  for url in parser.urls:  
  
  
  myurl = mypath + url  
  
  
  print "get: " + myurl  
  
  
  sock2 = urllib.urlopen(myurl)  
  
  
  html2 = sock2.read()  
  
  
  sock2.close()  
  
  
  # 保存到文件  
  
  
  print "save as: " + url  
  
  
  f2 = file(url, 'w')  
  
  
  f2.write(html2)  
  
  
  f2.close()

以上就是我们为大家介绍的有关Python实现网页爬虫的实现方法。

【编辑推荐】

深度讲述Python标准语言特性
深度剖析Python语言奥秘
探秘简单强大的Python语言
对Python测试问题全解析
几分钟教会您Python程序配置问题

网站名称：Python实现网页爬虫基本实现代码解读
本文路径：http://www.shufengxianlan.com/qtweb/news3/69053.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容