python打印網頁亂碼的解決方法
這篇文章將為大家詳細講解有關python打印網頁亂碼的解決方法,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
為汾西等地區用戶提供了全套網頁設計制作服務,及汾西網站建設行業解決方案。主營業務為網站設計制作、做網站、汾西網站設計,以傳統方式定制建設網站,并提供域名空間備案等一條龍服務,秉承以專業、用心的態度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!
Python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文網站爬取下來的內容往往中文顯示亂碼。看過我之前博客的同學可能知道,之前爬取的一個學校網頁就出現了這個問題,但是當時并沒有解決,這著實成了我一個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。
首先,我說一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網頁時默認用Unicode去解析,而大多數網站是utf-8格式的,并且解析出來之后,python竟然再以Unicode字符格式輸出,會與系統編碼格式不同,導致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實驗對象仍是被人上了無數遍的百度主頁~
# -*- coding: utf-8 -*- import urllib2 import re import requests import sys import urllib #設置編碼 reload(sys) sys.setdefaultencoding('utf-8') #獲得系統編碼格式 type = sys.getfilesystemencoding() r = urllib.urlopen("http://www.baidu.com") #將網頁以utf-8格式解析然后轉換為系統默認格式 a = r.read().decode('utf-8').encode(type) print a
最后輸出效果,中文完美輸出
關于python打印網頁亂碼的解決方法就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
網站題目:python打印網頁亂碼的解決方法
當前URL:http://www.xueling.net.cn/article/gdogep.html