重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
上个月某一天跟朋友聊天,聊到国庆电影,提到《攀登者》上映,预计票房会大好,因为吴京是这部片的主演。然后我就想,目前吴京在国内演员中位列几何呢?正好之前爬了猫眼电影数据,基于python数据分析的方式,分析中国演员排名情况。
创新互联公司是一家集网站建设,渭城企业网站建设,渭城品牌网站建设,网站定制,渭城网站建设报价,网络营销,网络优化,渭城网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。数据导入
导入之前爬取到的猫眼数据,由于爬取过程不是本文的主要内容,所以简单描述下数据情况:20110101至20191019年在中国上映,并且有用户评分和票房的影片,总共是2923部。
import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans pd.set_option('display.max_columns', None) pd.set_option('display.max_rows', None) # 加载数据 def load_data(): # 加载电影票房 open_filepath = 'D:\pythondata\\3、猫眼电影\\box_result.csv' movie_box = pd.read_csv(open_filepath) movie_box = movie_box[['电影id', '电影名称','首映日期','总票房']].drop_duplicates() # 加载电影信息 open_filepath = 'D:\pythondata\\3、猫眼电影\\maoyan_movie.xlsx' movie_message = pd.read_excel(open_filepath,sheet_name='maoyan_movie') movie_message.columns = ['电影url','电影名称','电影题材','国家','上映时间','用户评分','电影简介','导演/演员/编剧'] movie_message = movie_message[['电影url','电影题材','国家','用户评分','导演/演员/编剧']].copy() movie_message.drop_duplicates(inplace=True) movie_message['电影id'] = movie_message.apply(lambda x:x['电影url'].replace('https://maoyan.com/films/',''),axis=1) movie_message[['电影id']] = movie_message[['电影id']].apply(pd.to_numeric) # 合并电影信息和票房 data = pd.merge(movie_box,movie_message,how='inner',on=['电影id']) return data