老熟女激烈的高潮_日韩一级黄色录像_亚洲1区2区3区视频_精品少妇一区二区三区在线播放_国产欧美日产久久_午夜福利精品导航凹凸

重慶分公司,新征程啟航

為企業提供網站建設、域名注冊、服務器等服務

python實現關鍵詞提取的示例講解-創新互聯

新人小菜鳥又來寫博客啦!!!沒人表示不開心~~(>_<)~~

企業建站必須是能夠以充分展現企業形象為主要目的,是企業文化與產品對外擴展宣傳的重要窗口,一個合格的網站不僅僅能為公司帶來巨大的互聯網上的收集和信息發布平臺,成都創新互聯面向各種領域:花箱成都網站設計公司成都營銷網站建設解決方案、網站設計等建站排名服務。

今天我來弄一個簡單的關鍵詞提取的代碼

文章內容關鍵詞的提取分為三大步:

(1) 分詞

(2) 去停用詞

(3) 關鍵詞提取

分詞方法有很多,我這里就選擇常用的結巴jieba分詞;去停用詞,我用了一個停用詞表。

具體代碼如下:

import jieba
import jieba.analyse
#第一步:分詞,這里使用結巴分詞全模式
text = '''新聞,也叫消息,是指報紙、電臺、電視臺、互聯網經常使用的記錄社會、傳播信息、反映時代的一種文體,具有真實性、時效性、簡潔性、可讀性、準確性的特點。新聞概念有廣義與狹義之分。就其廣義而言,除了發表于報刊、廣播、電視上的評論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等。狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時地報道國內外新近發生的、有價值的的事實。新聞也分公眾新聞和小道新聞等。每則新聞在結構上,一般包括標題、導語、主體、背景和結語五部分。前三者是主要部分,后二者是輔助部分。寫法上主要是敘述,有時兼有議論、描寫、評論等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用詞
#這里是有一個文件存放要改的文章,一個文件存放停用表,然后和停用表里的詞比較,一樣的就刪掉,最后把結果存放在一個文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取關鍵詞
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 為待提取的文本
# topK:返回幾個 TF/IDF 權重大的關鍵詞,默認值為20。
# withWeight:是否一并返回關鍵詞權重值,默認值為False。
# allowPOS:僅包括指定詞性的詞,默認值為空,即不進行篩選。

網頁題目:python實現關鍵詞提取的示例講解-創新互聯
標題網址:http://www.xueling.net.cn/article/ejcgs.html

其他資訊

在線咨詢
服務熱線
服務熱線:028-86922220
TOP
主站蜘蛛池模板: 国产在线观看精品一区二区三区 | 六月激情网 | 免费A片看黄网站WWW | 欧美影视一区 | 成人欧美一区二区三区在线播放 | 日韩黄色网页 | 蜜桃视频在线视频 | 亚洲日本一区二区 | 免费在线黄网 | 国产91福利视频 | 国产真实乱免费高清视频 | 日韩七区| 女人自慰喷水高清播放 | 椎名由奈一区二区在线 | 国产小视频一区 | 午夜寂寞视频无码专区 | 亚洲网站在线免费观看 | 97dyy97影院理论片在线 | 九九九久久久久 | 国产成人馆 | 日本丰满毛茸茸熟妇 | 在线观看自拍 | 中文字幕人妻丝袜成熟乱 | 免费日韩视频在线观看 | 麻豆出品必属精品 | 91大神久久 | 亚洲欧美日韩第一页 | 神马老子影院午夜观看网站 | 日本久久大片 | 国产精品亚洲成在人线 | 最新国产亚洲亚洲精品a | 久草久在线 | 国产真实愉拍系列在线视频 | 国产成人久久精品激情 | 粉嫩小泬无遮挡久久久久久 | 黄色在线 | 特级淫片aaaaaaa级附近的 | 97在线免费观看视频 | 欧美一级特黄aaaaaa在线看片 | 欧美高清二区 | 久久久久久久久久久高潮 |