klib，一个加速数据清洗的神器！

数据不吹牛

2024-01-24 09:10 ·浙江 ·优质科技领域创作者

今天给大家分享一个klib库。

klib提供了一系列非常易于应用的函数，具有合理的默认值，几乎可以用在任何DataFra me上，用于评估数据质量、获得灵感、执行数据清洗和可视化，从而更轻便、更高效的处理Python Pandas DataFrame数据。

klib可视化数据

例如，cat_plot，

例如，展示缺省值，

klib.missingval_plot(df_cleaned)

再例如，corr_interactive_plot基于plotly构建交互式相关性图表，

klib.corr_interactive_plot(df, annot=False, figsize=(20,17))

klib清洗数据

主要包含如下函数，

-klib.data_cleaning(df) # 执行数据清洗（删除重复项和空行/列，调整数据类型等） -klib.clean_column_names(df) # 清理和标准化列名，也在 data_cleaning() 中调用 -klib.convert_datatypes(df) # 将现有数据转换为更高效的数据类型，也在 data_cleaning() 中调用 -klib.drop_missing(df) # 删除缺失值，也在 data_cleaning() 中调用 -klib.mv_col_handling(df) # 基于信息内容删除缺失值比率高的特征 -klib.pool_duplicate_subsets(df) # 基于最小信息损失汇总具有重复项的列子集

这里只是抛砖引玉，详细内容不一一举例

大家可以结合开源地址：https://github.com/akanz1/klib

做一些尝试~

以上。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴