老熟女激烈的高潮_日韩一级黄色录像_亚洲1区2区3区视频_精品少妇一区二区三区在线播放_国产欧美日产久久_午夜福利精品导航凹凸

重慶分公司,新征程啟航

為企業提供網站建設、域名注冊、服務器等服務

舉例說明簡單的python爬蟲代碼-創新互聯

這篇文章主要為大家詳細介紹了簡單的python爬蟲代碼,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下。

公司主營業務:成都網站設計、做網站、移動網站開發等業務。幫助企業客戶真正實現互聯網宣傳,提高企業的競爭能力。成都創新互聯公司是一支青春激揚、勤奮敬業、活力青春激揚、勤奮敬業、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業文化,感謝他們對我們的高要求,感謝他們從不同領域給我們帶來的挑戰,讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。成都創新互聯公司推出雨山免費做網站回饋大家。

舉例說明簡單的python爬蟲代碼

python爬蟲代碼示例分享

一、爬取故事段子

注:部分代碼無法正常運行,但仍有一定的參考價值。

#encoding=utf-8
import urllib2
 
import re
 
 
class neihanba():
  def spider(self):
    '''
    爬蟲的主調度器
    '''
    isflow=True#判斷是否進行下一頁
    page=1
    while isflow:
      url="http://www.neihanpa.com/article/list_5_"+str(page)+".html"
      html=self.load(url)
      self.deal(html,page)
      panduan=raw_input("是否繼續(y/n)!")
      if panduan=="y":
        isflow=True
        page+=1
      else:
        isflow=False
  def load(self,url):
    '''
    針對url地址進行全部爬去
    :param url: url地址
    :return: 返回爬去的內容
    '''
    header = {
      "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
    }
    request = urllib2.Request(url, headers=header)
    response = urllib2.urlopen(request)
    html = response.read()
    return html
  def deal(self,html,page):
    '''
    對之前爬去的內容進行正則匹配,匹配出標題和正文內容
    :param html:之前爬去的內容
    :param page: 正在爬去的頁碼
    '''
    parrten=re.compile('
  • (.*?)
  • ',re.S) titleList=parrten.findall(html) for title in titleList: parrten1=re.compile('(.*)') ti1=parrten1.findall(title) parrten2=re.compile('
    (.*?)
    ',re.S) til2=parrten2.findall(title) for t in ti1: tr=t.replace("","").replace("","") self.writeData(tr,page) for t in til2: tr=t.replace("

    ","").replace("

    ","").replace("
    ","").replace("
    ","").replace("&ldquo","\"").replace("&rdquo","\"") self.writeData(tr,page) def writeData(self,context,page): ''' 將最終爬去的內容寫入文件中 :param context: 匹配好的內容 :param page: 當前爬去的頁碼數 ''' fileName = "di" + str(page) + "yehtml.txt" with open(fileName, "a") as file: file.writelines(context + "\n") if __name__ == '__main__': n=neihanba() n.spider()

    二、爬取智聯:

    #encoding=utf-8
    import urllib
    import urllib2
     
    import re
     
     
    class zhiLian():
      def spider(self,position,workPlace):
        '''
        爬蟲的主調度器
        :param position: 職位
        :param workPlace: 工作地點
        '''
        url="http://sou.zhaopin.com/jobs/searchresult.ashx?"
        url+=urllib.urlencode({"jl":workPlace})
        url+="&"
        url+=urllib.urlencode({"kw":position})
        isflow=True#是否進行下一頁的爬去
        page=1
        while isflow:
          url+="&"+str(page)
          html=self.load(url)
          self.deal1(html,page)
          panduan = raw_input("是否繼續爬蟲下一頁(y/n)!")
          if panduan == "y":
            isflow = True
            page += 1
          else:
            isflow = False
      def load(self,url):
        '''
        針對url地址進行全部爬去
        :param url: url地址
        :return: 返回爬去的內容
        '''
        header = {
          "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request = urllib2.Request(url, headers=header)
        response = urllib2.urlopen(request)
        html = response.read()
        return html
      def deal1(self,html,page):
        '''
     
        對之前爬去的內容進行正則匹配,匹配職位所對應的鏈接
        :param html:之前爬去的內容
        :param page: 正在爬去的頁碼
        '''
        parrten=re.compile('.*?',re.S)
        til=parrten.findall(html)#爬去鏈接
        for t in til:
          self.deal2(t,page)
      def deal2(self,t,page):
        '''
        進行二次爬蟲,然后在新的頁面中對公司、薪資、工作經驗進行匹配
        :param t: url地址
        :param page: 當前匹配的頁數
        '''
        html=self.load(t)#返回二次爬蟲的內容
        parrten1=re.compile('(.*?)\s+.*?',re.S)
        parrten2=re.compile('
  • 職位月薪:(.*?) .*?
  • ',re.S) parrent3=re.compile('
  • 工作經驗:(.*?)
  • ',re.S) til1=parrten1.findall(html) til2=parrten2.findall(html) til3=parrent3.findall(html) str="" for t in til1: t=t.replace('',"") str+=t str+="\t" for t in til2: str+=t str += "\t" for t in til3: str+=t self.writeData(str,page) def writeData(self,context,page): ''' 將最終爬去的內容寫入文件中 :param context: 匹配好的內容 :param page: 當前爬去的頁碼數 ''' fileName = "di" + str(page) + "yehtml.txt" with open(fileName, "a") as file: file.writelines(context + "\n") if __name__ == '__main__': position=raw_input("請輸入職位:") workPlace=raw_input("請輸入工作地點:") z=zhiLian() z.spider(position,workPlace)

    三、爬取貼吧:

    #encoding=utf-8
    import urllib
    import urllib2
     
    import re
     
     
    class teiba():
      def spider(self,name,startPage,endPage):
        url="http://tieba.baidu.com/f?ie=utf-8&"
        url+=urllib.urlencode({"kw":name})
        for page in range(startPage,endPage+1):
          pn=50*(page-1)
          urlFull=url+"&"+urllib.urlencode({"pn":pn})
          html=self.loadPage(url)
          self.dealPage(html,page)
     
      def loadPage(self,url):
        header={
          "User-Agent":" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request=urllib2.Request(url,headers=header)
        response=urllib2.urlopen(request)
        html=response.read()
        return html
      def dealPage(self,html,page):
        partten=re.compile(r'(.*?)',re.S)
        titleList=partten.findall(html)
        rstr=r'#(.*?)#'
        for title in titleList:
          title=re.sub(rstr,"",title)
          self.writePage(title,page)
      def writePage(self,context,page):
        fileName="di"+str(page)+"yehtml.txt"
        with open(fileName,"a") as file:
          file.writelines(context+"\n")
    if __name__ == '__main__':
      name=raw_input("請輸入貼吧名:")
      startPage=raw_input("請輸入起始頁:")
      endPage=raw_input("請輸入終止頁:")
      t=teiba()
      t.spider(name,int(startPage),int(endPage))

    以上就是簡單的python爬蟲代碼的詳細內容了,看完之后是否有所收獲呢?如果想了解更多相關內容,歡迎來創新互聯建站行業資訊!


    網站欄目:舉例說明簡單的python爬蟲代碼-創新互聯
    轉載來于:http://www.xueling.net.cn/article/digddo.html

    其他資訊

    在線咨詢
    服務熱線
    服務熱線:028-86922220
    TOP
    主站蜘蛛池模板: 免费中文字幕日产乱码 | 一区二区亚洲欧美在线 | 亚洲色欲色欲色欲www | 日本高清免费aaaaa大片视频 | 成人网站色52色在线观看 | WC女厕撒尿TV女厕偷拍 | 一本大道久久东京热无码av | 在线观看国产色视频网站 | 天天爽天天狠久久久综合麻豆 | 浪潮AV激情高潮国产精品 | 亚洲欧美日本在线观看 | 中文字幕久久精品一区二区 | 久久国产一二区 | 国产精品久久久久久久久免费看 | 久久天堂 | 2021国产精品一卡2卡三卡4卡 | 影音先锋资源站男人网 | 欧美日韩精品一区三区 | 免费观看美女用震蛋喷水的视频 | 最近中文字幕完整视频高清 | 三级com| 亚洲人成精品免费观看 | 日本一区二区三区在线看 | 中文字幕第35页 | 成人免费一区 | 欧美精品观看 | 国产精品一区二区久久精品爱涩 | 福利网址| 欧美孕妇色网 | 日本道最新高清不卡二区 | 亚洲在线观看网站 | 中文久久 | 911网站大全在线?看 | 91蝌蚪视频在线观看 | 成年人免费观看视频网站 | 免费性av| 99vv1com这只有精品 | 日本黄色影片在线观看 | 日本道在线视频 | 老子影院午夜伦手机不卡国产 | 69免费在线视频 |