DataFrame常用用法积累(df)len(df)1查看有多少行
df(),dtype={}123pd.DataFrame(xxx,dtype={'xx':float})当某一列有缺失值时,不可以将该列数据类型设置成int,需要设置成float,str等
df..astype()1dataFrame类型转换
1Tweets = pd.DataFrame(data).astype({'user_id':'Int64', 'tweet_id':'Int64','tweet':'object','tweet_date':'object'})
.dtypes1df.dtypes 查看数据类型
.sort_values().head(3) .tail(3).isnull()pd.pd.concat()pd.date_range1dates = pd. ...
Numpy学习np.np.array()1data = np.array([1, 2, 3, 4, 5])
np.random.randint123np_data = np.random.randint(1, 100, size=(4, 3))np.random.randint(20, 35, 5)
np.random.seed(42)np.arange(12).reshape(3,4)np.sum()Numpy123456789>>> import pandas as pd>>> import numpy as np>>> from pandas import Series,DataFrame>>> arr=np.arange(12).reshape(3,4)>>> arrarray([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]])>>>
创建1234567import numpy as ...
Pandas-Series常用用法积累series.between1["tweet_date"].between("2024-02-01", "2024-02-29")
series.isin([])1order[['dishes_id','dishes_name']][order['dishes_name'].isin(['内蒙古烤羊腿','xxx'])]
series.str123https://zhuanlan.zhihu.com/p/30894133https://blog.csdn.net/weixin_43750377/article/details/107979607
.str.cat.str.split.str.findall(r”#\w+”)1hashtags = tweets_feb_2024["tweet"].str.findall(r"#\w+")
.str ...
Pandas刷题Leecode刷题176.第二高的薪水123456789101112131415161718192021import pandas as pddef second_highest_salary(employee: pd.DataFrame) -> pd.DataFrame: # 1. 删除所有重复的薪水. employee = employee.drop_duplicates(["salary"]) # 2. 如果少于 2 个不同的薪水,返回 `np.NaN`。 if len(employee["salary"].unique()) < 2: return pd.DataFrame({"SecondHighestSalary": [np.NaN]}) # 3. 把表格按 `salary` 降序排序。 employee = employee.sort_values(by="salary", asc ...
Pandas学习-SeriesSeries创建series通过列表list12345678910111213使用列表和数组创建的Series数组则是副本,改变其中一个不会影响另一个。>>> from pandas import Series,DataFrame>>> s=Series([2,1,5,4,3])>>> s0 21 12 53 44 3dtype: int64>>> type(s)<class 'pandas.core.series.Series'>
123series默认index是从0 - N-1可以使用.values keys index获取对应类型数据
1234567891011>>> s.keys<bound method Series.keys of 0 21 12 53 44 3dtype: int64>>>> s.valuesarray([2, ...
Pandas学习-DataFrame参考
123pandas是一个python的第三方库,是一个易于使用的数据结构和数据分析工具。在数据探索,数据转换,数据清洗中常用。pandas包含两种数据结构,series和dataframe。前者处理一维数据(类似list),后者处理二维数据(类似二维数组或者表)。
123456789特点:-数据清理和预处理:Pandas提供了一系列功能,用于处理丢失数据(缺失值)、重复数据、异常值、数据类型转换等,以使数据变得更加干净和可用于分析。-数据选择和过滤:Pandas允许使用标签和位置进行数据选择和过滤,包括布尔索引、条件过滤、列选择等。-数据分组和聚合:Pandas支持数据分组操作,可以对数据进行分组并执行聚合操作,如求和、均值、计数等-合并和连接:Pandas提供了多种方法来合并和连接不同的数据集,包括数据库风格的连接、拼接和合并操作。-时间序列处理:Pandas内置了强大的时间序列功能,支持时间索引和时间相关的操作,适用于处理时间序列数据。-数据可视化:Pandas可以与Matplotlib等数据可视化库集成,帮助用户快速绘制图表和图形,以更 ...
数据分析 Python数据分析师2020特训营-Pandas DataFrame 1Excel及CSV等数据获取与保存12345pandas内置了10多种数据源读取函数,常见的就是CSV和EXCELpandas读取出来的数据直接是数据框格式,方便后续的数据处理和分析可以快速的将数据保存为CSV或者EXCEL格式参数较多,可以自行控制,但很多时候用默认参数读取CSV时,注意编码,常用编码为utf-8,gbk,gbk2312等
更改python获取数据的路径123import osos.getcwd()os.chdir()
数据类型12int64 float64 object:字符串或者字符
read_csv1pd.read_csv('xxx.csv',encoding='gbk')
,encoding123常用的有gbk gbk2312 utf-8# 数据包含中文读取报错的话,可以试试中文gbk,gbk2312编码或者utf-8
,dtype={‘xx’:str}1就算通过,dtype={'xxx ...
Python数据分析师2020特训营-Pandas DataFrame 2DataFrame数据筛选12345678order = pd.read_excel('xxx.xlsx')order.head(5)order.tail(5)order.columnsorder.dtypesorder.ndim #维度为2维order.shape # (2779,19)order.size # 52801
loc,iloc1234loc[A,B]iloc[A,B]A代表行,B代表列
12345678910data = [[1, 'Joe', 70000, 3], [2, 'Henry', 80000, 4], [3, 'Sam', 60000, ], [4, 'Max', 90000, None]]employee = pd.DataFrame(data, columns=['id', 'name', 'salary', ' ...
Python数据分析师2020特训营-Pandas DataFrame 3DataFrame数据整合1数据整合又称数据合井,将不同的数据合并在一起,这样可以将不同的信息集成在一张表上,有利于之后的分析
1常见的合并方法有堆叠和按主键进行合井,堆叠又分为横向堆叠和纵向堆叠,按主键合并类似于sql里面的关联操作
堆叠concat12345横向堆叠特两张表或多张表在X轴方向,即横向拼接在一起纵向堆叠将两张表或多张表在Y轴方向,即纵向拼接在一起注意使用concat时,axis=1用于横向,0代表纵向(默认为0)注意join取inner或者outer时:分别代表交集和并集
横向堆叠123data=pd.concat([df1,df2],axis=1,join='inner') # 按行标签取交集,行标签需要一样data=pd.concat([df1,df2],axis=1,join='outer') # 行标签一样的连接在一起,另外的类似sql全外连接
纵向堆叠1234适合各表数据意义一样,每一列名字一样和顺序一样的data=pd.concat([ ...
oracle数据库开发与应用 存储过程、函数和包 17存储过程存储过程的作用
123456789以上代码,可以将一些 SQL 操作集中起来。但是,如果实现PL/SQL块代码重用时,就打开SQL脚本来手工运行,这样也太麻烦了。因此,可以将一些需要反复使用的代码,指定一个名称,类似于其他编程语言中函数,调用时,用相应功能名称调用就可以了。在oracle内,提供了两种常见的对象,供实现代码重用:存储过程。将一些代码写在一个过程中,存储为数据库对象,供调用。过程没有返回值。函数。将一些代码写在一个函数中,存储为数据库对象,供调用。函数有返回值。当然,也可以用包将逻辑上相关的过程和函数组织在一起,便于对PL/SQL程序进行管理。
创建存储过程1234567存储过程用于执行某些操作,不返回任何值。其语法很简单,就是在标准PL/SQL程序块的基础上增加了一个程序头部,最简单的创建存储过程的语法如下:CREATE OR REPLACE PROCEDURE 存储过程名称AS(或者IS)变量、常量定义;BEGIN 代码;END ;
1此语法是最简单的创建存储过程的语法,更加复杂的语法将在后面讲解。
...






