软考-数据结构与算法时间复杂度T(n) f(n) O(n)取最高次数项且不要系数
例123456789101112131415161718void aFunc(int n) { if (n >= 0) { // 第一条路径时间复杂度为 O(n^2) for(int i = 0; i < n; i++) { for(int j = 0; j < n; j++) { printf("输入数据大于等于零\n"); } } } else { // 第二条路径时间复杂度为 O(n) for(int j = 0; j < n; j++) { printf("输入数据小于零\n"); } }}对于条件判断语句,总的时间复杂度 ...
ES面试1ES中的routing路由功能1如果在面试的时候面试官问你如何在ES中实现极速查询,其实就是问这个routing路由功能的。
如何解决ES集群的脑裂问题123答:所谓集群脑裂,是指 Elasticsearch 集群中的节点(比如共 20 个),其中的 10 个选了一个 master,另外 10 个选了另一个 master 的情况。当集群 master 候选数量不小于 3 个时,可以通过设置最少投票通过数量(discovery.zen.minimum_master_nodes)超过所有候选节点一半以上来解决脑裂问题; 当候选数量为两个时,只能修改为唯一的一个 master 候选,其他作为 data 节点,避免脑裂问题
详细描述一下ES索引文档的过程?12345答:这里的索引文档应该理解为文档写入 ES,创建索引的过程。第一步:客户端向集群某节点写入数据,发送请求。(如果没有指定路由/协调节点,请求的节点扮演协调节点的角色。) 第二步:协调节点接受到请求后,默认使用文档 ID 参与计算(也支持通过 routing),得到该文档属于哪个分片。随后请求会被转到另外的节点。第三步 ...
Hadoop面试Hadoop
HDFS机架感知与副本冗余存储策略
MAPREDUCE
1MapReduce 要求<key,value>的 key 和 value 都要实现 Writable接口,从而支持 Hadoop 的序列化和反序列化。上面的Hadoop的内置类型都实现了Writable接口,用户也必须对自定义的类实现 Writable 接口。
案例一 WordCount 程序案例二 统计各个部门员工薪水总和案例三 序列化
案例四 分区
案例
123解:map里面编写if判断,低薪,中薪,高薪作为k2patitioner里面编写if判断,分为三个区
案例五 合并 预聚合
简述MapTask并行度决定机制?源码分析
简述FileInputFormat(默认应该是其子类textinputformat)切片机制?源码分析
MapReduce程序如何大量小文件?1234sequencefilemapfilearchivecombinetextinputformat
combinetextinputformat
ReduceTask并行度与分区 ...
hive常见面试题1Hive有索引吗?1Hive本身不支持传统意义上的索引,但可以通过分区来实现类似的效果。分区可以按照某个字段对数据进行分组,从而提高查询效率。
在Map端和Reduce端进行join的不同场景是什么?12在Map端进行join适用于一张表非常小的情况,因为此时可以将小表完全加载到内存中进行处理。在Reduce端进行join是最常用的join方式,适用于两表都较大的情况,通过MapReduce框架并行处理以提高效率
Hive的存储格式有哪些?各自的优缺点是什么?123ORC(OrcolLECTION Format):压缩率高,读写速度快,适合实时分析。Parquet:列式存储,压缩率高,查询性能好,但写入速度较慢。sequenceFile:简单易用,但压缩率低,性能较差,支持切分
如何优化Hive查询性能?1234使用合适的存储格式(如ORC或Parquet)。进行SQL优化,如合理使用索引(分区)、避免全表扫描。调整配置参数,如设置合理的副本数和副本位置。利用内置优化器和统计信息来提升查询效率
Hive中的Sort By、Order By、Cluster B ...
hive常见面试题21234每层都是一个单独的数据库hive底层计算引擎可以换hive的操作方式hive仓库层次 ods dwd dws app
12345678910111213141516171819202122232425262728293031323334ODS层: 源数据层作用: 对接数据源, 一般和数据源保持相同的粒度(将数据源数据完整的拷贝到ODS层)建表比较简单: 业务库中对应表有那些字段, 需要在ODS层建一个与之相同字段的表即可, 额外在建表的时候, 需要构建为分区表, 分区字段为时间字段, 用于标记在何年何月何日将数据抽取到ODS层 DIM层: 维度层作用: 存储维度表数据此时不需要, 因为当前主题, 没有维度表DWD层: 明细层作用: 1) 清洗转换 2) 少量维度退化思考1: 当前需要做什么清洗操作? 不需要进行清洗思考2: 当前需要做什么转换操作? 需要对时间字段进行转换, 需要转换为 yearinfo, quarterinfo,monthinfo,dayinfo,hourinfo思考3: 当前需要做什么维度退化操作? ...
spring常见面试题
什么是 Spring 框架?1234Spring是一款开源的轻量级Java应用程序开发框架。Spring最根本的使命是解决企业级应用开发的复杂性,即简化Java开发。Spring Framework,它是很多模块的集合,使用这些模块可以很方便地协助我们进行开发,比如说 Spring 支持 IoC(Inverse of Control:控制反转) 和 AOP(Aspect-Oriented Programming:面向切面编程)、可以很方便地对数据库进行访问、可以很方便地集成第三方组件(电子邮件,任务,调度,缓存等等)、对单元测试支持比较好、支持 RESTful Java 应用程序的开发。
IOC(控制翻转)1控制翻转,也叫依赖注入,他就是不会直接创建对象,只是把对象声明出来,在代码 中不直接与对象和服务进行连接,但是在配置文件中描述了哪一项组件需要哪一项服 务,容器将他们组件起来。在一般的IOC场景中容器创建了所有的对象,并设置了必 要的属性将他们联系在一起,等到需要使用的时候才把他们声明出来,使用注解就跟 方便了,容器会自动根据注解把对象组合起来
AOP ...
面试技能要求DAMA和DCMM1DAMA 数据治理工程师认证证书或者DCMM 注册数据管理师证书或注册数据安全治理专业人员认证证书
SQL1sql一定要熟练 会基本接口开发
数据方面1234具备深入的数据管理知识,熟悉数据治理框架和最佳实践。熟悉数据质量管理和数据安全措施,有相关项目经验者优先。熟练掌握数据仓库,数据集市设计架构原理;熟悉dataworks数据治理平台体系者优先
数据结构和算法12有扎实的数据结构及算法基础;熟悉常见的设计模式,有良好的编程习惯。了解基本的统计学、数据挖掘、机器学习、深度学习原理并能在项目中进行应用。
技能要求1熟悉业务场景,理解客户需求,编写实施文档;
1具备数据分析思维,了解机器学习和常用统计方法的优先
123456789101112131415数据标准建立,模型设计,ETL流程开发,数据质量稽核数据指标构建和多维特征分析熟悉数据仓库、数据集市模型设计方法论,并有实际模型设计及ETL开发经验 熟悉BI开发流程,熟练使用帆软、永洪、SMARTBI等报表工具熟练使用ORALCE、PG等常用数据库,熟悉MPP分布式大数据平台,熟练使用SQL, ...
正则表达式一、元字符123456789元字符是构造正则表达式的一种基本元素。. :匹配除换行符以外的任意字符w:匹配字母或数字或下划线或汉字s:匹配任意的空白符d:匹配数字b:匹配单词的开始或结束^:匹配字符串的开始$:匹配字符串的结束
二、重复限定符1234567正则没提供办法处理这些重复的元字符吗?答案肯定是有的。*:重复零次或更多次+:重复一次或更多次?:重复零次或一次{n}:重复n次{n,}:重复n次或更多次{n,m}:重复n到m次
三、分组()1234限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。因此当我们要匹配多个ab时,我们可以这样。如匹配字符串中包含0到多个ab开头:^(ab)*
四、转义123正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是\即可。匹配字符串中包含0到多个ab开头:^(\(ab\))*
五、条件或 | ...
面试问的问题Linux123sed awk层级目录 查询只在限制层级的目录范围内,查找符合某名称特点和修改时间在一定范围内的文件进程 子进程数量到达多少,结束进程
12345678注意linux ls 只会显示最后一列字段也就是文件名目录名ll 才会显示很全hdfsls 就显示很全了注意 hdfs ls和linux ls ll显示的是有所区别的
文件个数ls123ls -l | grep - | wc -lls -l | grep "^-" | wc -lls -lR /data/soft/jdk1.8/lib | grep '^-' | wc -l
find1234567统计所有文件的数量(包括子目录):find /path/to/directory -type f | wc -l-type f 选项指令 find 仅查找文件。统计所有目录的数量:find /path/to/directory -type d | wc -l-type d 选项让 find 仅查找目录。
Python存储过程、游标1大概是使用在存储过程中用游标将符合 ...






