怎么新建MySQL数据库

发布时间：2022-08-23 作者：admin
阅读：1374

这篇文章给大家分享的是Python中对重复值产生的处理方案是什么。小编觉得挺实用的，因此分享给大家做个参考，文中的介绍得很详细，而要易于理解和学习，有需要的朋友可以参考，接下来就跟随小编一起了解看看吧。

前言：

如果大家接触过数据分析，那么大家可能都知道，最让人头疼的就是在数据录入的过程中，不可避免的会产生重复值，缺失值和异常值了，python也提供了一些方法让我们处理这些值。下面让我们一块来学习一下吧~

今天，先处理重复值，首先创建一个包含重复值的DataFrame,如下：

import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b'])
print(data)

我们将其打印出来，结果如下：

可以看出来第一第二行是重复的，这里的数据量比较少，可以直接肉眼观察，但如果数据量多的时候，我们就需要用到diplicated()函数来查询了，我们用它来查查上面data的重复值。

data[data.duplicated()]

我们可以看出，它把索引为1的行打印了出来，如果有3行一样的呢？我们下面来试试！

import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b'])
data[data.duplicated()]

其结果如下：

可以看出，重复项出了第一个出现的数据外，都会显示出来。

如果想统计出一共有多少行重复了，我们就可以用到sum()函数，代码如下：

data.duplicated().sum()

很多情况下，我们都需要删除掉重复的数据，这时候我们就可以用到drop_duplicated()函数，我们将data的重复行删除掉试试！

data.drop_duplicated()

刚执行代码时发生了错误，原来是duplicates而不是duplicated!

但是要注意，用drop_duplicates()删除重复项并不会影响data的结构，如果你要把data结构改掉就要重新赋值。如果要用来删除某列的重复值的话，直接在括号内加上列名即可。

如下：

“Python中对重复值产生的处理方案是什么”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业技术相关的知识可以关注群英网络网站，小编每天都会为大家更新不同的知识。

相关阅读