重慶分公司,新征程啟航
為企業(yè)提供網(wǎng)站建設(shè)、域名注冊(cè)、服務(wù)器等服務(wù)
為企業(yè)提供網(wǎng)站建設(shè)、域名注冊(cè)、服務(wù)器等服務(wù)
本篇內(nèi)容介紹了“python如何爬取漂亮的圖片作為壁紙”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
在成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作過(guò)程中,需要針對(duì)客戶(hù)的行業(yè)特點(diǎn)、產(chǎn)品特性、目標(biāo)受眾和市場(chǎng)情況進(jìn)行定位分析,以確定網(wǎng)站的風(fēng)格、色彩、版式、交互等方面的設(shè)計(jì)方向。成都創(chuàng)新互聯(lián)公司還需要根據(jù)客戶(hù)的需求進(jìn)行功能模塊的開(kāi)發(fā)和設(shè)計(jì),包括內(nèi)容管理、前臺(tái)展示、用戶(hù)權(quán)限管理、數(shù)據(jù)統(tǒng)計(jì)和安全保護(hù)等功能。
首先,可以查看上瀏覽器上的地址欄,可以看出這個(gè)搜索結(jié)果的網(wǎng)址構(gòu)成還是挺有規(guī)律的,前面是堆糖的首頁(yè)網(wǎng)址,?后面是咱們的請(qǐng)求數(shù)據(jù),請(qǐng)求數(shù)據(jù)里面最關(guān)鍵的就是(kw="搜索關(guān)鍵詞"),這是會(huì)根據(jù)咱們搜索內(nèi)容不同而改變的。
接著按鍵盤(pán)上的f12調(diào)出開(kāi)發(fā)者工具,點(diǎn)擊Network,再按f5刷新下網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)重新請(qǐng)求,可以看到在Name的下拉框下有許多的請(qǐng)求文件,咱們可以點(diǎn)擊一個(gè)文件進(jìn)行查看下里面請(qǐng)求頭數(shù)據(jù),這是待會(huì)寫(xiě)爬蟲(chóng)非常重要的請(qǐng)求頭構(gòu)造數(shù)據(jù)來(lái)源。
看不出規(guī)律可以單擊下資源文件,右邊窗口的Request URL行也有這個(gè)url,咱們多點(diǎn)擊幾個(gè)文件進(jìn)行查看,并將里面url地址復(fù)制到文本上查看。
單擊一個(gè)資源文件,再點(diǎn)擊右邊Preview,可以看到這里面有許多數(shù)據(jù),而咱們要的數(shù)據(jù)就是前面的json數(shù)據(jù),黑色三角形是可以點(diǎn)擊的,點(diǎn)擊后會(huì)展開(kāi)詳細(xì)的數(shù)據(jù)信息。
分析到這里,就可以來(lái)寫(xiě)咱們的代碼,打開(kāi)pycharm,先導(dǎo)入必要的庫(kù)。
from urllib.parse import urlencode import requests import time import os
接著構(gòu)造咱們的請(qǐng)求頭和每一頁(yè)的url。
base_url='https://www.duitang.com/napi/blog/list/by_search/?' headers = { 'Host':'www.duitang.com', 'Referer':'https://www.duitang.com/search/?kw=%e7%be%8e%e5%a5%b3&type=feed', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36', 'X-Requested-With':'XMLHttpRequest' }
def get_page(start,count): params={ 'kw':'小姐姐', 'type':'feed', 'include_fields':'top_comments,is_root,source_link,item,buyable,root_id,status,like_count,like_id,sender,album,reply_count,favorite_blog_id', '_type':'', 'start':start, '_':count } url = base_url + urlencode(params) try: response = requests.get(url,headers=headers) if response.status_code == 200: return response.json() else: print("error") except requests.ConnectionError as e: print('Error',e.args)
獲取到圖片url就可以進(jìn)行讀寫(xiě)操作了。
def parse_page(json): if json: items = json.get('data').get('object_list') for item in items: data = {} data['favorite_count'] = item.get('favorite_count'); item = item.get('photo') data['path']=item.get('path'); ## 獲取圖片url地址 file_path = '{0}/{1}'.format('./'+download_dir, data['path'].split('/')[-1]) ## 將圖片寫(xiě)入到本地硬盤(pán)上 with open(file_path, 'wb') as f: img = requests.get(data['path']) print(img) f.write(img.content) yield data
再寫(xiě)個(gè)主函數(shù),完成
start_page = 0 ## 從第幾頁(yè)開(kāi)始爬 page_size = 5 ## 要爬多少頁(yè) count = 1597729530322 ## 第1頁(yè)請(qǐng)求數(shù)據(jù)中下劃線(xiàn)的取值 download_dir = "downlode_img">
“python如何爬取漂亮的圖片作為壁紙”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!