python打印網(wǎng)頁亂碼的解決方法
這篇文章將為大家詳細講解有關python打印網(wǎng)頁亂碼的解決方法,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
為汾西等地區(qū)用戶提供了全套網(wǎng)頁設計制作服務,及汾西網(wǎng)站建設行業(yè)解決方案。主營業(yè)務為網(wǎng)站設計制作、做網(wǎng)站、汾西網(wǎng)站設計,以傳統(tǒng)方式定制建設網(wǎng)站,并提供域名空間備案等一條龍服務,秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!
Python是個好工具,但是也有其固有的一些缺點。最近在學習網(wǎng)頁爬蟲時就遇到了這樣一種問題,中文網(wǎng)站爬取下來的內(nèi)容往往中文顯示亂碼。看過我之前博客的同學可能知道,之前爬取的一個學校網(wǎng)頁就出現(xiàn)了這個問題,但是當時并沒有解決,這著實成了我一個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。
首先,我說一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網(wǎng)頁時默認用Unicode去解析,而大多數(shù)網(wǎng)站是utf-8格式的,并且解析出來之后,python竟然再以Unicode字符格式輸出,會與系統(tǒng)編碼格式不同,導致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實驗對象仍是被人上了無數(shù)遍的百度主頁~
# -*- coding: utf-8 -*- import urllib2 import re import requests import sys import urllib #設置編碼 reload(sys) sys.setdefaultencoding('utf-8') #獲得系統(tǒng)編碼格式 type = sys.getfilesystemencoding() r = urllib.urlopen("http://www.baidu.com") #將網(wǎng)頁以utf-8格式解析然后轉(zhuǎn)換為系統(tǒng)默認格式 a = r.read().decode('utf-8').encode(type) print a
最后輸出效果,中文完美輸出
關于python打印網(wǎng)頁亂碼的解決方法就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
文章標題:python打印網(wǎng)頁亂碼的解決方法
分享地址:http://www.xueling.net.cn/article/gdogep.html