重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这篇文章主要讲解了“怎么用Python电商车厘子销售数据”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python电商车厘子销售数据”吧!
创新互联主要从事做网站、网站设计、网页设计、企业做网站、公司建网站等业务。立足成都服务恩平,10多年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792
01 数据获取
本文利用Python采集了淘宝网1585个商家车厘子销售数据,获取到车厘子的商品名称、商品价格、付款人数、店铺名称、发货地址等字段。限于篇幅,爬虫代码仅给出主函数:
def main: browser.get('https://www.taobao.com/') page = search_product(key_word)print(page) get_datapage_num = 70 while int(page) != page_num: print("-" * 100) print("正在爬取第{}页数据".format(page_num + 1)) browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44)) browser.implicitly_wait(10) get_datapage_num += 1 print("数据抓取完成") if __name__ == '__main__': key_word = "车厘子" browser = webdriver.Chrome("./chromedriver") main
02 数据处理
1.数据读取并预览
import pandas as pd import numpy as np df = pd.read_csv('/菜J学Python/淘宝/车厘子.csv',header=None, names=['商品名称','商品价格','付款人数','店铺名称','发货地址']) #添加字段名称 df.sample(5)
2.查看数据信息
df.info
Int64Index: 1595 entries, 0 to 1674 Data columns (total 5 columns): # Column Non- Count Dtype --- ------ -------------- ----- 0 商品名称 1595 non- object 1 商品价格 1595 non- float64 2 付款人数 1595 non- object 3 店铺名称 1595 non- object 4 发货地址 1585 non- object dtypes: float64(1), object(4) memory usage: 74.8+ KB
发现数据存在以下几个问题:
(1)发货地址有缺失值
(2)付款人数需做提取
(3)发货地址需做分割
(4)自定义索引并降序
3.数据清洗
#剔除缺失记录 df.dropna(axis=0, how='any', inplace=True) #从发货地址字段中切分出省份和城市df["省份"] = df["发货地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的内容直接分列 df["城市"] = df["发货地址"].str.split(' ',expand=True)[1] #提取城市 df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充 #用正则表达式从付款人数中提取数字import re df['数字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']] # 提取数值 df['数字'] = df['数字'].astype('float') # 转化数值型 df['单位'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']] # 提取单位(万) df['单位'] = df['单位'].apply(lambda x:10000 if x=='万' else 1) df['付款人数'] = df['数字'] * df['单位'] # 计算付款人数 df.drop(['发货地址', '数字', '单位'], axis=1, inplace=True) # 删除多余的列 #按商品价格降序并重置索引df = df.sort_values(by="商品价格", axis=0, ascending=False) #降序 df = df.reset_index(drop=True) #重置索引
清洗后,数据预览如下:
感谢各位的阅读,以上就是“怎么用Python电商车厘子销售数据”的内容了,经过本文的学习后,相信大家对怎么用Python电商车厘子销售数据这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!