Skip to main content

数据分析 Pandas

pandas

  1. 读取和保存数据
  • pd.read_csv(filepath): 读取 CSV 文件为 DataFrame。
  • pd.read_excel(filepath): 读取 Excel 文件为 DataFrame。
  • pd.to_csv(filepath): 将 DataFrame 保存为 CSV 文件。
  • pd.to_excel(filepath): 将 DataFrame 保存为 Excel 文件。
  1. 数据查看和检查
  • df.head(n): 查看前 n 行数据(默认 n=5)。
  • df.tail(n): 查看后 n 行数据(默认 n=5)。
  • df.describe(): 查看数据的统计描述(如计数、均值、标准差等)。
  • df.info(): 查看数据集的简要概况,包括每列的数据类型和非空值的数量。
  • df.shape: 查看 DataFrame 的行数和列数。
  1. 数据清洗和预处理
  • df.dropna(): 删除含有缺失值的行或列。
  • df.fillna(value): 使用指定值填充缺失值。
  • df.drop(columns): 删除指定的列。
  • df.rename(columns={'old_name': 'new_name'}): 重命名列。
  1. 数据筛选和排序
  • df[df['column'] > value]: 根据条件筛选行。
  • df.sort_values(by='column'): 根据某列的值排序数据。
  • df.groupby('column'): 按指定列对数据进行分组。
  1. 数据合并和连接
  • pd.concat([df1, df2]): 按行或按列合并数据。
  • pd.merge(df1, df2, on='column'): 根据一列或多列合并两个 DataFrame。
  • df.join(other, on='column'): 将一个 DataFrame 连接到另一个 DataFrame 的索引上。
  1. 数据转换
  • df.apply(func): 应用函数到 DataFrame 的行或列。
  • df['column'].map(mapping_dict): 根据字典映射转换列的值。
  • df.pivot_table(): 创建数据透视表。
  1. 统计分析
  • df.sum(), df.mean(), df.median(): 计算总和、均值和中位数。
  • df.groupby('column').agg({'col1': 'sum', 'col2': 'mean'}): 对分组数据进行多重聚合。
  • df.corr(): 计算列之间的相关系数。
  1. 时间序列分析
  • pd.to_datetime(df['column']): 将列转换为日期时间格式。
  • df.set_index('datetime_column'): 将日期时间列设为索引。
  • df.resample('D').mean(): 重新采样时间序列数据(如按天、月等)。