重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
今天就跟大家聊聊有关太行山有Python爬取微博数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
创新互联是一家集网站建设,信阳企业网站建设,信阳品牌网站建设,网站定制,信阳网站建设报价,网络营销,网络优化,信阳网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
爬虫的最大功能之一就是整合数据,能弄到更全面的信息,真正做好大数据的分析,在这个数据说话的年代,影响是决定性的。(注意别侵权)
♦思路流程
1、利用chrome浏览器,获取自己的cookie。
2、获取你要爬取的用户的微博User_id
3、将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。
♦完整代码
import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3): page = str(p) url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page data = requests.get(url) data_text = data.text data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text) num = len(data_num) for i in range(0,num): url_detail = "https://m.weibo.cn/detail/" + data_num[i] html = requests.get(url_detail) time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text) timedata.append(time.group(1)) tm.sleep(random.uniform(1,4)) #反爬间隔 print("采集第%d页第%d条微博数据"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')
用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。
看完上述内容,你们对太行山有Python爬取微博数据有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联行业资讯频道,感谢大家的支持。