面试 问的问题

面试问的问题

Linux

1
2
3
sed awk
层级目录 查询只在限制层级的目录范围内,查找符合某名称特点和修改时间在一定范围内的文件
进程 子进程数量到达多少,结束进程
1
2
3
4
5
6
7
8
注意linux 
ls 只会显示最后一列字段也就是文件名目录名
ll 才会显示很全

hdfs
ls 就显示很全了

注意 hdfs ls和linux ls ll显示的是有所区别的

文件个数

ls

1
2
3
ls -l | grep - | wc -l
ls -l | grep "^-" | wc -l
ls -lR /data/soft/jdk1.8/lib | grep '^-' | wc -l

find

1
2
3
4
5
6
7
统计所有文件的数量(包括子目录):
find /path/to/directory -type f | wc -l
-type f 选项指令 find 仅查找文件。

统计所有目录的数量:
find /path/to/directory -type d | wc -l
-type d 选项让 find 仅查找目录。

Python

存储过程、游标

1
大概是使用在存储过程中用游标将符合条件的两行表连接,最后结果插入新表
1
2
存储过程可以进行DDL,DML,DQL操作
存储过程+游标案例:删除数据,修改数据

数仓

元数据有什么作用

血缘

数据质量

常用的hive函数

IP地址

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
IPV4 4字节 32位
IPV6 16字节 128位
网络接口
网卡
公网地址
内网地址
127.0.0.1
8进制
10进制
16进制
交换机 路由器 =网关
网络号 子网掩码
路由
域名
ISO OSI\tcp ip网络模型
ip协议
tcp协议
UDP协议
tcp编程 socket=ip地址+端口号(0-1024-65535) 服务端 客户端
udp编程 socket=ip地址+端口号(0-1024-65535)
1
2
3
4
5
6
HTTP编程 
HTTP请求 请求头 请求体
get请求 参数
post请求 参数
响应码 400 404 500 503 3xx
HTTP 1.0 HTTP 1.1 HTTP 2.0