在Python的Pandas库中,DataFrame是一个二维标签化的数据结构,可以用来存储和操作数据。以下是一些常用的DataFrame函数和方法:
1. 创建DataFrame
`(data, columns=None, index=None, dtype=None,
copy=False)` 2. 基本属性
``:返回一个表示行数和列数的元组。 ``:返回DataFrame的索引对象。 ``:返回DataFrame的列标签。
3. 数据访问
`[]`:基于标签的索引。 `[]`:基于整数位置的索引。
4. 选择数据
`(n=5)`:返回前n行。 `(n=5)`:返回最后n行。
5. 数据清洗
`()`:删除含有缺失值的行或列。 `(value)`:用给定的值填充缺失值。
6. 数据转换
`(dtype)`:将数据转换为指定的数据类型。
`(columns=None, index=None)`:重命名列或行标签。
7. 数据处理
`(by=None, axis=0, level=None, as_index=True, sort=True)`:
根据一个或多个键对数据进行分组。
`(right, how, on=None, left_index=False, right_index=False,
sort=True)`:将两个DataFrame进行合并。 8. 数据聚合
`()`、`()`、`()`等:对数据进行聚合操作。
9. 数据排序
`_values(by, axis=0, ascending=True, inplace=False,
kind='quicksort', na_position='last')`:根据一个或多个键对数据进行排序。 10. 数据子集
`[row_labels, col_labels]`:选择指定的行和列。
11. 缺失值处理
`()`:返回一个与DataFrame相同形状的DataFrame,如果元素是缺失值则为True,否则为False。
`()`:返回一个与DataFrame相同形状的DataFrame,如果元素不是缺失值则为True,否则为False。
12. 重复值处理
`()`:返回一个与DataFrame相同形状的Series,如果元素是重复的则为True,否则为False。 13. 重塑数据
`()`:将宽格式的数据转换为长格式的数据。 14. 时间序列处理
`df['timestamp'] = _datetime(df['timestamp'])`:将某一列转换为时间序列格式。
`df['year'] = df['timestamp'].`:提取时间序列中的年份。 15. 索引调整
`df = (columns=['new_column1', 'new_column2'])`:调整列的顺序或添加新的列。
因篇幅问题不能全部显示,请点此查看更多更全内容