hive常见面试题21234每层都是一个单独的数据库hive底层计算引擎可以换hive的操作方式hive仓库层次 ods dwd dws app
12345678910111213141516171819202122232425262728293031323334ODS层: 源数据层作用: 对接数据源, 一般和数据源保持相同的粒度(将数据源数据完整的拷贝到ODS层)建表比较简单: 业务库中对应表有那些字段, 需要在ODS层建一个与之相同字段的表即可, 额外在建表的时候, 需要构建为分区表, 分区字段为时间字段, 用于标记在何年何月何日将数据抽取到ODS层 DIM层: 维度层作用: 存储维度表数据此时不需要, 因为当前主题, 没有维度表DWD层: 明细层作用: 1) 清洗转换 2) 少量维度退化思考1: 当前需要做什么清洗操作? 不需要进行清洗思考2: 当前需要做什么转换操作? 需要对时间字段进行转换, 需要转换为 yearinfo, quarterinfo,monthinfo,dayinfo,hourinfo思考3: 当前需要做什么维度退化操作? ...
hive常见面试题1Hive有索引吗?1Hive本身不支持传统意义上的索引,但可以通过分区来实现类似的效果。分区可以按照某个字段对数据进行分组,从而提高查询效率。
在Map端和Reduce端进行join的不同场景是什么?12在Map端进行join适用于一张表非常小的情况,因为此时可以将小表完全加载到内存中进行处理。在Reduce端进行join是最常用的join方式,适用于两表都较大的情况,通过MapReduce框架并行处理以提高效率
Hive的存储格式有哪些?各自的优缺点是什么?123ORC(OrcolLECTION Format):压缩率高,读写速度快,适合实时分析。Parquet:列式存储,压缩率高,查询性能好,但写入速度较慢。sequenceFile:简单易用,但压缩率低,性能较差,支持切分
如何优化Hive查询性能?1234使用合适的存储格式(如ORC或Parquet)。进行SQL优化,如合理使用索引(分区)、避免全表扫描。调整配置参数,如设置合理的副本数和副本位置。利用内置优化器和统计信息来提升查询效率
Hive中的Sort By、Order By、Cluster B ...
spring常见面试题
什么是 Spring 框架?1234Spring是一款开源的轻量级Java应用程序开发框架。Spring最根本的使命是解决企业级应用开发的复杂性,即简化Java开发。Spring Framework,它是很多模块的集合,使用这些模块可以很方便地协助我们进行开发,比如说 Spring 支持 IoC(Inverse of Control:控制反转) 和 AOP(Aspect-Oriented Programming:面向切面编程)、可以很方便地对数据库进行访问、可以很方便地集成第三方组件(电子邮件,任务,调度,缓存等等)、对单元测试支持比较好、支持 RESTful Java 应用程序的开发。
IOC(控制翻转)1控制翻转,也叫依赖注入,他就是不会直接创建对象,只是把对象声明出来,在代码 中不直接与对象和服务进行连接,但是在配置文件中描述了哪一项组件需要哪一项服 务,容器将他们组件起来。在一般的IOC场景中容器创建了所有的对象,并设置了必 要的属性将他们联系在一起,等到需要使用的时候才把他们声明出来,使用注解就跟 方便了,容器会自动根据注解把对象组合起来
AOP ...
正则表达式一、元字符123456789元字符是构造正则表达式的一种基本元素。. :匹配除换行符以外的任意字符w:匹配字母或数字或下划线或汉字s:匹配任意的空白符d:匹配数字b:匹配单词的开始或结束^:匹配字符串的开始$:匹配字符串的结束
二、重复限定符1234567正则没提供办法处理这些重复的元字符吗?答案肯定是有的。*:重复零次或更多次+:重复一次或更多次?:重复零次或一次{n}:重复n次{n,}:重复n次或更多次{n,m}:重复n到m次
三、分组()1234限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。因此当我们要匹配多个ab时,我们可以这样。如匹配字符串中包含0到多个ab开头:^(ab)*
四、转义123正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是\即可。匹配字符串中包含0到多个ab开头:^(\(ab\))*
五、条件或 | ...
面试技能要求DAMA和DCMM1DAMA 数据治理工程师认证证书或者DCMM 注册数据管理师证书或注册数据安全治理专业人员认证证书
SQL1sql一定要熟练 会基本接口开发
数据方面1234具备深入的数据管理知识,熟悉数据治理框架和最佳实践。熟悉数据质量管理和数据安全措施,有相关项目经验者优先。熟练掌握数据仓库,数据集市设计架构原理;熟悉dataworks数据治理平台体系者优先
数据结构和算法12有扎实的数据结构及算法基础;熟悉常见的设计模式,有良好的编程习惯。了解基本的统计学、数据挖掘、机器学习、深度学习原理并能在项目中进行应用。
技能要求1熟悉业务场景,理解客户需求,编写实施文档;
1具备数据分析思维,了解机器学习和常用统计方法的优先
123456789101112131415数据标准建立,模型设计,ETL流程开发,数据质量稽核数据指标构建和多维特征分析熟悉数据仓库、数据集市模型设计方法论,并有实际模型设计及ETL开发经验 熟悉BI开发流程,熟练使用帆软、永洪、SMARTBI等报表工具熟练使用ORALCE、PG等常用数据库,熟悉MPP分布式大数据平台,熟练使用SQL, ...
面试问的问题Linux123sed awk层级目录 查询只在限制层级的目录范围内,查找符合某名称特点和修改时间在一定范围内的文件进程 子进程数量到达多少,结束进程
12345678注意linux ls 只会显示最后一列字段也就是文件名目录名ll 才会显示很全hdfsls 就显示很全了注意 hdfs ls和linux ls ll显示的是有所区别的
文件个数ls123ls -l | grep - | wc -lls -l | grep "^-" | wc -lls -lR /data/soft/jdk1.8/lib | grep '^-' | wc -l
find1234567统计所有文件的数量(包括子目录):find /path/to/directory -type f | wc -l-type f 选项指令 find 仅查找文件。统计所有目录的数量:find /path/to/directory -type d | wc -l-type d 选项让 find 仅查找目录。
Python存储过程、游标1大概是使用在存储过程中用游标将符合 ...
投资 狗总直播回放20263.16123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197 ...
投资 老厉害2026「高盛」202603101体制内专家解读“两会”房地产领域,对市场前景保持谨慎,触底还需2-3年,政策基调未变,边际支持库存回购,城市更新未来5年10万亿规模,但没有大拆大建|外资研报|房价|二手房|
1大家好啊,欢迎回到老厉害的 YouTube 频道。那今天呢,跟大家分享一篇高盛的房地产研报啊,这篇研报呢是在两会之后啊,他们对一 位体制内的专家做了一系列的访谈啊,这位体制内专家呢是原就职于住建部的一位专家,他叫秦红。那么我简单来跟大家分享一下这篇研报的核心观点啊。首先呢,就是这位专家表示啊,这一次两会当中对于房地产政策呢,定调基本上是延续之前的定调,没有太大的变化。那因此呢,他对于未来市场的看法就是还有两到3年的下行空间,而2026年是非常明确的在往下走。啊,这个其实和最近一段时间大家探 讨的关于二手房是不是在3月份就要企稳了啊,是形成了鲜明的对比。当然一会我也会给大家看一下摩根大通的这篇研报,摩根的一些领 先指标呢,也都呈现出了啊,似乎3月份房价又开始下跌的初步迹象啊。这位专家呢,第2个核心观点呢,是关于城市更新的。由于他之前呢是共职在体制内啊,可能他也掌握了 ...






