easyeda,一个简单实用的探索性数据分析工具

火山方舟向量数据库大模型

在算法工程师的日常工作中, 探 索性数据分析 ( Exploratory Data Analysis ) 是一种常见的 任务。 通过分析数据的缺失情况,分布情况,以及和标签的相关性等,数据 EDA 可以帮助算法工程师评估数据的质量,了解数据的 特点, 为特征工程 提供方向指引,并对后续建立的模型能够达到的效果上限形成初步预期 。

我将我常用来进行数据EDA的这套脚本封装成了一个库easyeda并在PyPI和github开源了出来,供大家参考使用。这是我个人发布的第一个开源Python包,感觉还是棒棒哒,希望可以给大家带来一些帮助。

一,easyeda简介

easyeda是一个简单但是实用的探索性数据分析工具。

easyeda可以对常见的二分类问题,多分类问题,以及回归问题进行探索性数据分析。

easyeda支持所有常见的数值型,字符串型数据,bool型数据属性的探索性数据分析。

easyeda支持常见的缺失值分析,数据分布分析,数据和label的相关性分析,训练集和测试集数据的同分布性分析。

二,使用范例

首先,可以使用pip安装easyeda。


        
            

          pip install easyeda
        
      

然后可以通过如下示范代码进行调用。


          
from easyeda import eda  
import pandas as pd  
from sklearn import datasets  
from sklearn.model_selection import train_test_split  
  
  
boston = datasets.load_boston()  
df = pd.DataFrame(boston.data,columns = boston.feature_names)  
df["label"] = boston.target  
dftrain,dftest = train_test_split(df,test_size = 0.3)  
dfeda = eda(dftrain,dftest,language="Chinese")  

      

picture.image

核心代码只有两行:


          
from easyeda import eda  
dfeda = eda(dftrain,dftest,language="Chinese")  

      

三,项目地址

Github: https://github.com/lyhue1991/easyeda

PyPI: https://pypi.org/project/easyeda/

公众号后台回复关键字: easyeda,获取项目全部源码。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论