重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
这期内容当中小编将会给大家带来有关怎么在Python中使用Dataframe 指定多列去重,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
成都创新互联主营酒泉网站建设的网络公司,主营网站建设方案,app软件开发公司,酒泉h5微信小程序定制开发搭建,酒泉网站营销推广欢迎酒泉等地区企业咨询1)去重
指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重。
Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组。
具体代码如下:
>>>import pandas as pd >>>data={'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']} >>>frame=pd.DataFrame(data) >>>frame pop state 0 a 1 1 b 1 2 c 2 3 d 2 4 b 1 5 c 2 6 d 2 >>>frame.drop_duplicates(subset=['pop','state']) pop state 0 a 1 1 b 1 2 c 2 3 d 2
2)求差集
假设有两个dataframe为a和b,a和b可以是相互包含的关系,现在想要将a中和b重复的内容去掉,也就是求差集,步骤如下:
(1)需要对两个dataframe进行去重。
(2)利用append方法,a=a.append(b)
(3)再次利用append方法,a=a.append(b)
(4)去重,利用drop_duplicates方法,a=a.drop_duplicates(),以及设置参数keep=False,意思就是只要有重复,重复的记录都去掉。(keep默认='first',也就是保留第一条记录)
具体代码如下:
>>>data_a={'state':[1,1,2],'pop':['a','b','c']} >>>data_b={'state':[1,2,3],'pop':['b','c','d']} >>>a=pd.DataFrame(data_a) >>>a pop state 0 a 1 1 b 1 2 c 2 >>>b=pd.DataFrame(data_b) >>>b pop state 0 b 1 1 c 2 2 d 3 >>>a = a.append(b) >>>a = a.append(b) >>>result = a.drop_duplicates(subset=['pop','state'],keep=False) >>>result pop state 0 a 1
Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂、容易入门、功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,Web开发等。
上述就是小编为大家分享的怎么在Python中使用Dataframe 指定多列去重了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联成都网站设计公司行业资讯频道。
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。