python常用用法积累面试问题深拷贝和浅拷贝的区别是什么?12深拷贝是将对象本身复制给另一个对象。这意味着如果对对象的副本进行更改时不会影响原对象。浅拷贝是将对象的引用复制给另一个对象。因此,如果我们在副本中进行更改,则会影响原对象。
列表和元祖有什么不同?1主要区别在于列表是可变的,元祖是不可变的
dir() 函数1dir() 函数返回对象中的所有成员
字符串处理如何删除字符串中的前置空格12345前置空格是第一个非空格字符前的所有空格,使用 lstrip() 函数来删除.Ayushi如图这个字符串既包含前置空格也包含后置空格. 调用 lstrip() 函数去除了前置空格。如果想去除后置空格,使用 rstrip() 函数。Ayushi
如何将字符串转换为小写?12lower()upper()
1要检查字符串是否为全大写或全小写,使用isupper()和islower()函数
函数请解释 Python 中的闭包?1如果在一个内部函数里。对在外部作用域(但不是在全局作用域)的变量进行引用,那么内部函数就是一个闭包
什么是lambda函数?1匿名函数称为lambda函数。 ...
Hbase121.我们在设计列族的时候,可以把经常读取的列存储到一个列族中,不经常读取的列放到另一个列族中。这样我们在读取部分列的数据的时候,就只需要读取对应列族文件中的数据,提高读取效率。
1234567在HBase中,数据块大小和MemStore大小是两个不同的概念,它们具有不同的功能和调整目的。数据块大小主要影响HBase中的数据存储和访问性能。数据块由多个cell(key-value对)集合组成,每个数据块的大小在创建表的列族时可以指定。数据块大小的设定影响数据块索引的大小,数据块越小,索引越大,从而占用更大内存空间。因此,在随机查找性能和数据块索引内存占用之间需要权衡。如果需要更好的随机查找性能,可以将数据块设置为较小的值;而如果需要更好的序列扫描性能,则可以考虑增大数据块的大小。而MemStore是HBase中用于保存修改数据(即key-value对)的内存结构。当MemStore的大小达到一个阈值(默认是128MB)时,MemStore会被Flush到文件(即StoreFile),以释放内存空间。MemStore的大小设置主要影响HBase的写入性能和内存使用。如果Me ...
大数据-hivehive.mapred.mode 严格模式123456789hive> set hive.mapred.mode;hive.mapred.mode is undefined未定义即为false,即no-strict模式。开启严格模式:set hive.mapred.mode=strict;关闭严格模式:set hive.mapred.mode=undefined;
123456781.对分区表的查询必须使用到分区相关的字段分区表的数据量通常都比较大,对分区表的查询必须使用到分区相关的字段,不允许扫描所有分区,想想也是如果扫描所有分区的话那么对表进行分区还有什么意义呢。2.order by必须带limit因为要保证全局有序需要将所有的数据拉到一个Reducer上,当数据集比较大时速度会很慢。个人猜测可能是设置了limit N之后就会有一个很简单的优化算法:每个Reducer排序取N然后再合并排序取N即可,可大大减少数据传输量3. 禁止笛卡尔积查询(join必须有on连接条件)join必须带有on连接条件,不允许两个表直接相乘
2022黑马数据湖架构开发Hudi-应用进阶篇 flink集成 1
2022黑马数据湖架构开发Hudi基础入门篇 1课程内容大纲和学习目标1
1
为什么要学习Apache Hudi什么是数据湖DataLake数据仓库和数据湖区别三大流式数据湖框架Hudi 框架基本介绍Hudi 快速发展Hudi 快速体验使用编译Hudi 源码1他这种编译方式,hudi0.9 如果自己使用的hadoop3系列会出问题,编译就通不过。不过他这里是先安装的hudi,其它的还没安装,所以不会使用到已有的一些依赖。
1234567891011121314151617181920212223OK,接下来呢,我们来看第二部分就是hudi呢,快速的一个体验使用,那说白了我们就是让hudi帮我们管理数据啊,哎,我们看一下怎么去用互理。那我们分为下面5个部分去讲,首先我们思考一个问题,在前面我们讲过,hudi,它是一个数据湖的框架,它就是管理数据的,它不存储数据,也不呢进行分析数据,那他既然不存储数据的话呢,那我们的数据,它管理的数据,我们需要有个地方怎么样进行存储。那在这里面呢,我们就使用我们讲的最典型的一个文件系统,就是HDFS。那所以说我们当hudi管理数据以后,我们需 ...
2022黑马数据湖架构开发Hudi-应用进阶篇 1123456掌握大数据基础框架安装部署理解滴滴运营分析业务需求及实现思路编程实现滴滴运营分析(数据存储和SQL查询)掌握Hudi与集成Hive掌握结构化流实时流式写入数据到Hudi表了解Hudi表支持SparkSQL语句查询
Hudi 应用进阶篇之集成Spark–课程内容大纲和学习目标123大家好,接下来呢,我们继续来看我们hudi的一个使用,那今天呢,我们来给大家讲hudi的应用进阶篇,那其实我们的第二部分与应用进阶篇当中呢,与我们Spark的集成,在前面我们给大家去讲到了,hudi呢是一个数据湖框架,帮助我们更好的去管理数据,那hudi一开始诞生的时候呢,就是。哎,管理存储在HDFS文件系统上的数据。让我们更好的去管理,那比如说它可以对我们存储在HDF S上的数据呢小文件进行自动的合并。再比如hudi呢,可以啊,使得我们对文件系统上的数据进行一个更新,进行删除。以及我们可以对文件系统的数据,我们进行hudi的这种查询等等等等。好了,hudi一开始诞生呢,就是跟Spark进行集成的。hudi是既不存储数据又不分析数据,就是管理数据, ...
尚硅谷大数据技术之数据湖Hudi-1Hudi概述Hudi简介123456789101112131415161718接下来我们先来了解一下什么是hudi。可以简单理解为这么几个单词啊。Hadoop相关的upsurts就是支持插入及更新,并且呢支持一个删除,还有增量的一个处理。那么hudi其实就是咱们经常讲的一个什么数据湖的一个框架。那么官方更愿意称它为一个平台。因为啊它提供了一个平台化的能力,还有很多的功能,并且呢它是支持什么呢牛市的啊,这一点就特别关键的。那么继继续看啊,apache将核心仓库还有数据库的功能直接引入了数据库。也就是说大家使用起来还是应该是比较熟悉的那关键是后面这里你看它提供了一个表表,怎么理解呢?那么相信大家啊来了解hudi的一定都了解过,hive这么一个框架,咱们经常用hive来做一个离线数仓,对吧?那其实咱们大数据,比如说是基于hadoop的那我们的分布式的存储都是基于HDFS。那这个时候对于这个上面的数据怎么像一张表一样来管理跟使用它呢?那就借助hive这个框架,他给我们提供了表的管理,像表的一些schema啊,那我们就可以通过一些hive sql来对数据进行一 ...
git自己博客内容 有部分记录
来自b站视频
git、svn
git、github、gitlab
12github、gitlab基于git建设github、gitlab功能更加丰富
git远程服务器
git本地客户端软件
git服务端、客户端安装git服务端
1git服务端 选择github,gitlab
git客户端1下载安装、图像界面、集成git的idea
1github desktop、fork
git操作
新建、管理远程仓库新建
管理
修改记录
回滚
分支
tag
权限
本地仓库克隆、更新克隆 git clone
1也可以直接下载zip文件 但不支持后续的更新 上传操作 仅适用于查看
切换分支克隆 git branch git checkout
git clone –branch 目标分支名 地址 目录
更新 git pull
缓存区 上传 git status git diff git add
提交到本地仓库 git commit -m “log”
提交远程仓 git push
实例讲解
多环境代码管理
1些更 ...
尚硅谷大数据技术之数据湖Hudi-3数据写
123456789那我们来聊一个hoodie当中的一个核心操作,也就数据写入的一些操作啊,还有一些基本的原理,这个大家就视情况来了解。如果你仅仅是应用呢,你这一块就简单搂一眼就可以。如果你想啊多了解深一点,那你就好好去了解这一块,研究这一块。啊那我们基本要知道的是hudi的写入操作啊,大概可以分为三大类啊。第一类是所谓的upsert,也就是说插入或者更新。那这个时候它是严格依赖于什么呢?索引。它是必须依赖于索引的。也就是说upset的必须依赖于索引啊,这也是hudi的一个特点特性,高效的upsert啊,还有结合索引。另外呢他会去标记你是插入还是更新的数据。另外呢根据不同表不同场景啊,也就是说他有一定的策略啊去写做一些写入的行为啊,这是upsert的我们具体看啊另外一种就是insert,就是指追加的方式。其实啊那就是跳过索引啊,就是你这个索引我不管了,反正我有新的数据来,我管你是什么样的,我都直接就是追加追加追加追加啊。但是这个呢嗯回头你要自己去做一个去重的一个处理啊。还有一种是bulk_insert,是那个批量插入,批量插入这种是后面新版本提 ...
github相关问题上传网站12git init 后好像是因为我两个账号导致remote: Repository not found. fatal: repository 'https://github.com/ttyong/URL-Shortener.git/' not found
1目录找错
1! [rejected] master -> master (fetch first) error: failed to push some refs to 'https://github.com/Techzhihuizhan/URL-Shortener.git'
1github pages
访问慢



















