老熟女激烈的高潮_日韩一级黄色录像_亚洲1区2区3区视频_精品少妇一区二区三区在线播放_国产欧美日产久久_午夜福利精品导航凹凸

重慶分公司,新征程啟航

為企業提供網站建設、域名注冊、服務器等服務

Python爬取騰訊視頻評論的思路詳解-創新互聯

一、前提條件

察雅網站制作公司哪家好,找創新互聯!從網頁設計、網站建設、微信開發、APP開發、自適應網站建設等網站項目制作,到程序開發,運營維護。創新互聯于2013年成立到現在10年的時間,我們擁有了豐富的建站經驗和運維經驗,來保證我們的工作的順利進行。專注于網站建設就選創新互聯。
  • 安裝了Fiddler了(用于抓包分析)
  • 谷歌火狐瀏覽器
  • 如果是谷歌瀏覽器,還需要給谷歌瀏覽器安裝一個SwitchyOmega插件,用于代理服務器
  • 有Python的編譯環境,一般選擇Python3.0及以上

聲明:本次爬取騰訊視頻里 《最美公里》紀錄片的評論。本次爬取使用的瀏覽器是谷歌瀏覽器

二、分析思路

1、分析評論頁面


根據上圖,我們可以知道:評論使用了Ajax異步刷新技術。這樣就不能使用以前分析當前頁面找出規律的手段了。因為展示的頁面只有部分評論,還有大量的評論沒有被刷新出來。

這時,我們應該想到使用抓包來分析評論頁面刷新的規律。以后大部分爬蟲,都會先使用抓包技術,分析出規律!

2、使用Fiddler進行抓包分析——得出評論網址規律

fiddler如何抓包,這個知識點,需要讀者自行去學習,不在本博客討論范圍。


Python爬取騰訊視頻評論的思路詳解

把上面兩張圖里面的內容對比一下,可以知道這個JS就是評論存放頁面。(這需要大家一個一個找,一般Ajax都是在JS里面,所以這也找JS進行對比即可)

我們復制這個JS的url:右擊 > copy > Just Url

大家可以重復操作幾次,多找幾個JS的url,從url得出規律。下圖是我刷新了4次得到的JS的url:


根據上圖,我們發現url不同的地方有兩處:一是cursor=?;二是_=?。


我們很快就能發現 _=?的規律,它是從1576567187273加1。而cursor=?的規律看不出來。這個時候找到它的規律呢?


(1)百度一下,看前人有沒有爬取過類型的網站,根據他們的規律和方法,去找出規律;


(2)羊毛出在羊身上。我們需要有的大膽想法——會不會這個cursor=?可以根據上一個JS頁面得到呢?這只是很多大膽想法中的一個,我們就一個想法一個想法的試試。

我們就采用第二種方法,去js里面找。復制其中一個url為:

url = https://video.coral.qq.com/varticle/3242201702/comment/v2?callback=_varticle3242201702commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6460163812968870071&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1576567187273

分享文章:Python爬取騰訊視頻評論的思路詳解-創新互聯
標題來源:http://www.xueling.net.cn/article/dedhoj.html

其他資訊

在線咨詢
服務熱線
服務熱線:028-86922220
TOP
主站蜘蛛池模板: 刘亦菲精品国产亚洲人成 | 精品九九九九 | 99一级片 | www.日本欧美 | 成人网站免费视频可能被黑 | 东方欧美亚洲色图 | 国产高潮白浆喷水 | 超碰av在线| AV无码人妻中文字幕 | 视频福利一区 | a∨视频| 福利在线网站 | 国产V一区二区三区在线 | 一区二区三区成人 | 丰满的少妇XXXXX青青青 | 四虎国产精品成人免费久久 | 免费精品一区二区三区在线观看 | 四虎884aa成人精品 | 欧美国产二区 | www.亚洲天堂 | 日本高清在线播放 | 久久久亚洲欧洲日产国码αv | 999久久久精品视频 久久久经典视频 | 少妇伦子伦情品无吗 | 久久99精品久久久久久9 | 欧美一区2区视频在线观看 久久国产亚洲精品 | www.国产精彩视频 | 伊人55yiren综合开心 | 护士被两个病人伦奷日出白浆 | 9l蝌蚪porny中文自拍 | 中文字幕一二三区 | 一区二区三区在线视频播放 | 国产又粗又硬又黄视频免费着 | 超碰在线cao | 毛片网站视频 | 亚洲精品成人久久一区二区 | 久久久久成人免费视频 | 成年人网站在线 | 一级黄色免费视频 | 三级com| 最近免费中文字幕中文高清 |