数据分析 Pandas
- 读取和保存数据
pd.read_csv(filepath)
: 读取 CSV 文件为 DataFrame。pd.read_excel(filepath)
: 读取 Excel 文件为 DataFrame。pd.to_csv(filepath)
: 将 DataFrame 保存为 CSV 文件。pd.to_excel(filepath)
: 将 DataFrame 保存为 Excel 文件。
- 数据查看和检查
df.head(n)
: 查看前 n 行数据(默认 n=5)。df.tail(n)
: 查看后 n 行数据(默认 n=5)。df.describe()
: 查看数据的统计描述(如计数、均值、标准差等)。df.info()
: 查看数据集的简要概况,包括每列的数据类型和非空值的数量。df.shape
: 查看 DataFrame 的行数和列数。
- 数据清洗和预处理
df.dropna()
: 删除含有缺失值的行或列。df.fillna(value)
: 使用指定值填充缺失值。df.drop(columns)
: 删除指定的列。df.rename(columns={'old_name': 'new_name'})
: 重命名列。
- 数据筛选和排序
df[df['column'] > value]
: 根据条件筛选行。df.sort_values(by='column')
: 根据某列的值排序数据。df.groupby('column')
: 按指定列对数据进行分组。
- 数据合并和连接
pd.concat([df1, df2])
: 按行或按列合并数据。pd.merge(df1, df2, on='column')
: 根据一列或多列合并两个 DataFrame。df.join(other, on='column')
: 将一个 DataFrame 连接到另一个 DataFrame 的索引上。
- 数据转换
df.apply(func)
: 应用函数到 DataFrame 的行或列。df['column'].map(mapping_dict)
: 根据字典映射转换列的值。df.pivot_table()
: 创建数据透视表。
- 统计分析
df.sum()
, df.mean()
, df.median()
: 计算总和、均值和中位数。df.groupby('column').agg({'col1': 'sum', 'col2': 'mean'})
: 对分组数据进行多重聚合。df.corr()
: 计算列之间的相关系数。
- 时间序列分析
pd.to_datetime(df['column'])
: 将列转换为日期时间格式。df.set_index('datetime_column')
: 将日期时间列设为索引。df.resample('D').mean()
: 重新采样时间序列数据(如按天、月等)。