老熟女激烈的高潮_日韩一级黄色录像_亚洲1区2区3区视频_精品少妇一区二区三区在线播放_国产欧美日产久久_午夜福利精品导航凹凸

重慶分公司,新征程啟航

為企業提供網站建設、域名注冊、服務器等服務

爬蟲urllib庫的使用方法-創新互聯

創新互聯www.cdcxhl.cn八線動態BGP香港云服務器提供商,新人活動買多久送多久,劃算不套路!

成都創新互聯公司是專業的曹縣網站建設公司,曹縣接單;提供網站設計制作、做網站,網頁設計,網站設計,建網站,PHP網站建設等專業做網站服務;采用PHP框架,可快速的進行曹縣網站開發網頁制作和功能擴展;專業做搜索引擎喜愛的網站,專業的做網站團隊,希望更多企業前來合作!

這篇文章給大家分享的是有關爬蟲urllib庫的使用方法的內容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。

URL(Uniform Resource Locator)對象代表統一資源定位器,它是指向互聯網“資源”的指針。資源可以是簡單的文件或目錄,也可以是對復雜對象的引用,例如對數據庫或搜索引擎的查詢。在通常情況下,URL 可以由協議名、主機、端口和資源路徑組成,即滿足如下格式:

protocol://host:port/path

例如如下的 URL 地址:

http://www.crazyit.org/index.php

urllib 模塊則包含了多個用于處理 URL 的子模塊:

urllib.request:這是最核心的子模塊,它包含了打開和讀取 URL 的各種函數。
urllib.error:主要包含由 urllib.request 子模塊所引發的各種異常。
urllib.parse:用于解析 URL。
urllib.robotparser:主要用于解析 robots.txt 文件。

通過使用 urllib 模塊可以打開任意 URL 所指向的資源,就像打開本地文件一樣,這樣程序就能完整地下載遠程頁面。如果再與 re 模塊結合使用,那么程序完全可以提取頁面中各種信息,這就是所謂的“網絡爬蟲”的初步原理。

下面先介紹 urllib.parse 子模塊中用于解析 URL 地址和查詢字符串的函數:

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True):該函數用于解析 URL 字符串。程序返回一個 ParseResult 對象,可以獲取解析出來的數據。

urllib.parse.urlunparse(parts):該函數是上一個函數的反向操作,用于將解析結果反向拼接成 URL 地址。

urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):該該函數用于解析查詢字符串(application/x-www-form-urlencoded 類型的數據),并以 dict 形式返回解析結果。

urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'):該函數用于解析查詢字符串(application/x-www-form-urlencoded 類型的數據),并以列表形式返回解析結果。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus):將字典形式或列表形式的請求參數恢復成請求字符串。該函數相當于 parse_qs()、parse_qsl() 的逆函數。

urllib.parse.urljoin(base, url, allow_fragments=True):該函數用于將一個 base_URL 和另一個資源 URL 連接成代表絕對地址的 URL。

例如,如下程序使用 urlparse() 函數來解析 URL 字符串:

from urllib.parse import *

# 解析URL字符串
result = urlparse('http://www.crazyit.org:80/index.php;yeeku?name=fkit#frag')
print(result)
# 通過屬性名和索引來獲取URL的各部分
print('scheme:', result.scheme, result[0])
print('主機和端口:', result.netloc, result[1])
print('主機:', result.hostname)
print('端口:', result.port)
print('資源路徑:', result.path, result[2])
print('參數:', result.params, result[3])
print('查詢字符串:', result.query, result[4])
print('fragment:', result.fragment, result[5])
print(result.geturl())

上面程序中使用 urlparse() 函數解析 URL 字符串,解析結果是一個 ParseResult 對象,該對象實際上是 tuple 的子類。因此,程序既可通過屬性名來獲取 URL 的各部分,也可通過索引來獲取 URL 的各部分。

感謝各位的閱讀!關于爬蟲urllib庫的使用方法就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!


分享標題:爬蟲urllib庫的使用方法-創新互聯
鏈接分享:http://www.xueling.net.cn/article/hhpse.html

其他資訊

在線咨詢
服務熱線
服務熱線:028-86922220
TOP
主站蜘蛛池模板: 夜夜爽妓女8888视频免费 | 夜夜狠狠擅视频 | 天天摸天天操天天爽 | 免费精品一区二区三区在线观看 | 国产免费区一区二区三视频免费 | 疯狂撞击丝袜人妻 | 中文亚洲av片不卡在线观看 | 欧美高清在线一区二区 | 国产福利免费视频 | 99热r| 九九九九九少妇爽黄大片 | 国产精品久久久尹人香蕉 | 成年福利片在线观看 | 久久人人爽爽爽人久久久 | 成人性生交大片免费看中文 | 偷自拍亚洲视频在线观看99 | 久久无码中文字幕无码 | 国产黄色一级片视频 | 免费无码一区二区三区A片 未满小14洗澡无码视频网站 | 99热国产| 久久久久久久久久久久久9999 | 国产1级片 | 一区网站在线观看 | 欧美日韩AV无码一区二区三区 | 日韩av在线网 | 精品欧美国产一区二区三区不卡 | 日韩精品一区二区三区免费观影 | 久久撸视频 | 欧美成人gv在线观看 | 开心成人激情 | 国产亚洲v | 夜夜躁日日躁 | 黄色jjzz | 国产精品亚洲二线在线播放 | 啪啪一区二区三区 | 日本hdxxxx少妇1819 | 绿色小导航ˇ福利合集 | 国产精品久久久久久久久久99 | 黄色影片在线免费观看 | 日韩av综合 | fc2ppv国产精品久久 |