巧用IronPython做更灵活的网页爬虫

由于各种原因，我们经常需要去别的网站采集一些信息，.net下所有相关的技术都已经非常成熟，用Webrequest抓取页面，既支持自定义Reference头，又支持cookie，解析页面一般都是用正则，而且对方网站结构一变，还得重新改代码，重新编译，发布。

目前成都创新互联已为上千的企业提供了网站建设、域名、网站空间、网站托管、服务器租用、企业网站设计、正蓝网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

如果有了IronPython，可以把抓取和分析的逻辑做成Python脚本，如果对方页面结构变了，只需修改脚本就行了，不需重新编译软件，这样可以用c#做交互和界面部分，用Python封装预期经常变化的部分。

安装好IronPython和vs.net 2010后，还需要下载一个SGMLReader(见参考链接)，这个组件可以把格式不是很严格的HTML转换成格式良好的XML文件，甚至还能增加DTD的验证

我们以抓取百度贴吧页面为例，新建一个Console项目，引用IronPython,Microsoft.Dynamic,Microsoft.Scripting,SgmlReaderDll这些组件，把SGMLReader里的Html.dtd复制到项目目录下，如果没有这个，它会根据doctype去网络上找dtd，然后新建baidu.py的文件，***在项目属性的生成事件里写上如下代码，把这两个文件拷贝到目标目录里

 
 
 
  
  
  copy $(ProjectDir)\*.py $(TargetDir)    
  
  copy $(ProjectDir)\*.dtd $(TargetDir)

在baidu.py里首先引用必要的.net程序集

 
 
 
  
  
  import clr, sys    
  
  clr.AddReference("SgmlReaderDll")    
  
  clr.AddReference("System.Xml")

完了导入我们需要的类

 
 
 
  
  
  from Sgml import *    
  
  from System.Net import *    
  
  from System.IO import TextReader,StreamReader    
  
  from System.Xml import *    
  
  from System.Text.UnicodeEncoding import UTF8

利用SgmlReader写一个把html转换成xml的函数，注意SystemLiteral属性必须设置，否则就会去网上找dtd了，浪费时间

 
 
 
  
  
  def fromHtml(textReader):    
  
      sgmlReader = SgmlReader()    
  
      sgmlReader.SystemLiteral = "html.dtd"   
  
      sgmlReader.WhitespaceHandling = WhitespaceHandling.All    
  
      sgmlReader.CaseFolding = CaseFolding.ToLower    
  
      sgmlReader.InputStream = textReader    
  
          
  
      doc = XmlDocument()    
  
      doc.PreserveWhitespace = True   
  
      doc.XmlResolver = None   
  
      doc.Load(sgmlReader)    
  
      return doc

利用webrequest写一个支持cookie和网页编码的抓网页方法

 
 
 
  
  
  def getWebData  
  
  (url, method, data = None, cookie = None, encoding = "UTF-8"):    
  
      req = WebRequest.Create(url)    
  
      req.Method = method    
  
          
  
      if cookie != None:    
  
          req.CookieContainer = cookie    
  
          
  
      if data != None:    
  
          stream = req.GetRequestStream()    
  
          stream.Write(data, 0, data.Length)    
  
              
  
      rsp = req.GetResponse()    
  
      reader = StreamReader  
  
  (rsp.GetResponseStream(), UTF8.GetEncoding(encoding))    
  
      return reader

写一个类来定义抓取结果，这个类不需要在c#项目里定义，到时候直接用c# 4.0的dynamic关键字就可以使用

 
 
 
  
  
  class Post:    
  
      def __init__(self, hit, comments, title, link, author):    
  
          self.hit = hit    
  
          self.comments = comments    
  
          self.title = title    
  
          self.link = link    
  
          self.author = author

定义主要工作的类，__init__大概相当于构造函数，我们传入编码参数，并初始化cookie容器和解析结果，[]是python里的列表，大约相当于c#的List

 
 
 
  
  
  class BaiDu:    
  
      def __init__(self,encoding):    
  
          self.cc = self.cc = CookieContainer()            
  
          self.encoding = encoding    
  
          self.posts = []

接下来定义抓取方法，调用getWebData抓网页，然后用fromHtml转换成xml，剩下的就是xml操作，和.net里一样，一看便知

 
 
 
  
  
  def getPosts(self, url):    
  
          reader = getWebData  
  
  (url, "GET", None, self.cc, self.encoding)    
  
          doc = fromHtml(reader)    
  
              
  
          trs = doc.SelectNodes  
  
  ("html//table[@id='thread_list_table']/tbody/tr")    
  
          self.parsePosts(trs)    
  
          
  
      def parsePosts(self, trs):    
  
          for tr in trs:                
  
              tds = tr.SelectNodes("td")    
  
              hit = tds[0].InnerText    
  
              comments = tds[1].InnerText    
  
              title = tds[2].ChildNodes[1].InnerText    
  
              link = tds[2].ChildNodes[1].Attributes["href"]    
  
              author = tds[3].InnerText    
  
                  
  
              post = Post(hit, comments, title, link, author)    
  
              self.posts.append(post)

c#代码要创建一个脚本运行环境，设置允许调试，然后执行baidu.py，***创建一个Baidu的类的实例，并用dynamic关键字引用这个实例

 
 
 
  
  
  Dictionary  options = new Dictionary ();     
  
  options["Debug"] = true;    
  
  ScriptEngine engine = Python.CreateEngine(options);    
  
  ScriptScope scope = engine.ExecuteFile("baidu.py");    
  
  dynamic baidu = engine.Operations.Invoke(scope.GetVariable("BaiDu"), "GBK");

接下来调用BaiDu这个python类的方法获取网页抓取结果，然后输出就可以了

 
 
 
  
  
  baidu.getPosts("http://tieba.baidu.com/f?kw=seo");    
  
              dynamic posts = baidu.posts;    
  
              foreach (dynamic post in posts)    
  
              {    
  
                  Console.WriteLine("{0}     
  
  (回复数:{1})(点击数：{2})[作者:{3}]",    
  
                      post.title,    
  
                      post.comments,    
  
                      post.hit,    
  
                      post.author);    
  
              }

原文链接：http://www.cnblogs.com/onlytiancai/archive/2011/02/22/1960859.html

当前题目：巧用IronPython做更灵活的网页爬虫
当前地址：http://www.shufengxianlan.com/qtweb/news47/270397.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容