Python数据分析师2020特训营-Pandas DataFrame 1
Python数据分析师2020特训营-Pandas DataFrame 1
智汇君数据分析 Python数据分析师2020特训营-Pandas DataFrame 1
Excel及CSV等数据获取与保存
1 | pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL |
更改python获取数据的路径
1 | import os |
数据类型
1 | int64 float64 |
read_csv
1 | pd.read_csv('xxx.csv',encoding='gbk') |
,encoding
1 | 常用的有gbk gbk2312 utf-8 |
,dtype={‘xx’:str}
1 | 就算通过,dtype={'xxx':str}设置数据类型为字符串后 显示还是是object |
,nrows
1 | ,nrows=10 只读取十行 |
,seq
1 | 一般不用写,因为csv文件本身就是通过','分割数据,pandas.read_csv默认也是用','分割 |
,header
1 | ,header=0 这是默认的以第一行为列名,不作为数据读入 |
,na_values
1 | 假如数据中是特定数据指的是缺失值(假如404),那么在创建dataframe的时候可以设置na_values=404,那么会显示成nan |
read_excel
1 | pd.read_excel('xxx.xlsx',sheet_name='xxx') |
,sheet_name
1 | 指定读取哪一个工作页 |
案例
1 | 当遇到每一个sheetname有规律,而且行的意义是一样的时候,可以读取所有sheet进一个大的DataFrame |
to_csv
1 | df.to_csv('xxx.csv') |
,index
1 | ,index=False #保存数据时不保存行索引 |
,encoding
to_excel
1 | 类似 |
数据库数据获取和保存
1 | 使用sqlalchemy建立连接 |
创建连接
1 | import pymysql |
read_sql()
1 | sql='select * from t' |
使用函数封装方便使用
1 | def load_data(table): |
to_sql()
1 | df = pd.read_csv('xxx.csv') |
,if_exist=’xx’
1 | replace |









