A B C D
答案:D
13:YARN架构中,整个集群同时提供服务,负责集群资源的统一管理和调度。
A1 B2 C3 D4
A B C D
答案:A
15:HDFS当前块大小为128M。 如果要上传到HDFS的文件大小为300M,则存储时会分配一个Block进行存储。
A1 B2 C3 D4
A B C D
答案:C
三:选择题(每题5分)
16:根据涉及的自变量数量,回归分析可分为
A 线性回归分析 B 非线性回归分析 C 单变量回归分析 D 多元回归分析
A B C D
答案:光盘
17:网络爬虫的爬取策略中,最基本的应用是
A 深度优先遍历策略 B 广度优先遍历策略 C 高度优先遍历策略 D 反向链接策略
A B C D
答案:AB
18:大数据产业发展特点
A 规模大 B 规模小 C 增长速度快 D 增长速度慢 E 多行业交叉整合
ABCDE
答案:王牌
19:大数据人才整体需要具备以下核心知识:
A 数学、统计学知识 B 计算机相关知识 C 马克思主义哲学知识 D 市场运营管理知识 E 特定业务领域知识
ABCDE
答案:阿贝
1:判断题(每题5分)
1:具有较强的报告撰写能力,能够通过文字、图表、可视化等方式清晰地展示分析结果,并能够清晰地讨论分析结果和可能的影响,从而说服决策者并采纳他们的建议。 ,是对具有数据分析能力的大数据人才的基本要求。
A:正确 B:错误
答案:B
2:一般来说,分布式数据库是指物理上分散在不同地点但逻辑上统一的数据库。 因此,分布式数据库具有物理独立、逻辑集成、性能可扩展等特点。
A:正确 B:错误
答案:A
3:所有程序都需要经过Map和这两个过程
A:正确 B:错误
答案:B
2:多项选择题(每题5分)
8:信息技术发展史上的第二次信息化浪潮发生在
A 1950 年左右 B 1980 年左右 C 1995 年左右 D 2010 年左右
A B C D
答案:C
9:配置时,包含在配置文件中
A -.xml B -env.sh C -site.xml D .xs
A B C D
答案:B
10:当今社会,最突出的大数据环境是
A互联网B物联网C综合国力D自然资源
A B C D
答案:A
11:Hbase中批量加载的底层实现
AB 蜂巢 CD 绽放
A B C D
答案:A
12:通常在节点上启动以下程序
A B C D
A B C D
答案:D
13:HBase系统基本架构中主服务器的作用是
A包含访问HBase的接口,在缓存中维护已经访问过的位置信息,以加快后续的数据访问过程。 B 可以帮助选举一个管理器作为集群,并确保任何时候总有唯一一个在运行。 C 主要负责表、表的管理。 D是HBase中的核心模块。 它负责维护分配的表并响应用户的读写请求。
A B C D
答案:C
15:默认保存HDFS中的块
A1 B2 C3 D4
A B C D
答案:C
三:选择题(每题5分)
16:以下关于大数据的说法哪一项是不正确的?
A.大数据具有体量大、结构单一、时效性强的特点。 B、处理大数据需要新的计算架构和智能算法等新技术。 C.大数据的应用注重相关性分析而不是因果分析。 D、大数据应用注重因果关系。 分析而非相关分析
A B C D
答案:AD
17:数据研究经历了多种范式,包括
A 实验 B 理论 C 计算 D 数据
A B C D
答案:ABCD
18:大数据产业蕴含关键技术
A 批处理计算 B 流式计算 C 图形计算 D 查询分析计算
A B C D
答案:ABCD
19:大数据应用需要依赖的新技术包括
A 大规模存储与计算 B 数据分析与处理 C 智能 D 云计算
A B C D
答案:ABCD
20:以下关于数据生命周期管理的核心理解哪些是正确的?
A、数据从产生到删除、销毁的过程中,存在多个不同的数据存在阶段。 B、在不同的数据存在阶段,数据的价值是不同的。 C、根据不同的数据价值,对数据采取不同的管理策略。 D. 数据生命周期管理旨在产生效益的同时降低生产成本
A B C D
答案:ABC
1:判断题(每题5分)
1:信息生命周期管理是生命周期管理的源头,最早由英国公司提出。
A:正确 B:错误
答案:B
2:决策树是一种基于树结构的预测模型。 每个树枝代表一个分类条件,叶子节点代表最终的分类结果。 其优点是易于实现、决策时间短、适合处理非数值类型。 数据。
A:正确 B:错误
答案:A
3:在噪声数据中,波动数据比异常值数据偏离总体水平更多。
A:正确 B:错误
答案:B
4:Pig是基于Pig的大规模数据分析平台,为海量数据的复杂并行计算提供了简单的操作和编程接口。
A:正确 B:错误
答案:A
5:大数据预测可以分析和挖掘人们不知道或注意到的模式,并确定事件必然发生。
A:正确 B:错误
答案:B
2:多项选择题(每题5分)
6:大数据时代,数据利用的关键是
A 数据收集 B 数据存储 C 数据分析 D 数据复用
A B C D
答案:D
7:支撑大数据业务的基础是
A 数据科学 B 数据应用 C 数据硬件 D 数据人才
A B C D
答案:B
8:以下关于API的说法不正确的是?
A的文件API不通用,仅在HDFS文件系统中使用。 B类的默认实例化方法是一个对象,根据HDFS系统的资源配置来存储文件和目录的元数据。 D 是 java.io 的子类。
A B C D
答案:A
9:云数据库功能不包括
A动态可扩展性B高可用性C高性能D高使用成本
A B C D
答案:D
10:下列关于大数据分析概念的表述中,哪一项是
A. 基于数据,它更喜欢整体数据而不是采样数据。 B、在分析方法上,更注重相关分析而不是因果分析。 C、在分析效果上,追求效率而不是绝对准确。 D、在数据规模上,强调相对数据而不是绝对数据。
A B C D
答案:D
11:数据仓库的最终目的是
A. 收集业务需求 B. 建立数据仓库的逻辑模型 C. 开发数据仓库的应用分析 D. 为用户和业务部门提供决策支持
A B C D
答案:D
12:数据清洗方法不包括
A 缺失值处理 B 噪声数据清理 C 一致性检查 D 重复数据记录处理
A B C D
答案:D
13:以下程序负责HDFS数据存储。
A B C D
A B C D
答案:C
14:下列关于集群挖矿技术的说法中,哪一项是
A. 不要提前设置数据分类类别。 完全根据数据本身的性质将数据聚合为不同的类别。 B.要求相似数据的内容相似度尽可能小。 C.要求不同类型数据的内容相似度尽可能小。 D.采用分类挖掘技术 相似之处在于它们都需要对数据进行分类。
A B C D
答案:B
三:选择题(每题5分)
16:数据复用的意义在于
A. 挖掘数据的潜在价值 B. 实现数据重组的创新价值 C. 利用数据可扩展性拓展业务领域 D. 优化存储设备,降低设备成本
A B C D
答案:ABC
6:大数据的基本特征不包括
A、数据量大。 B. 各种数据类型。 C、处理速度快。 D、价值密度高。
A B C D
答案:D
3:对于大数据来说,最基本、最重要的要求就是减少错误、保证质量。 因此,大数据收集的信息量必须尽可能准确。
A:正确 B:错误
答案:B
8:下面类似HDFS的框架是
A NTFS B FAT32 C GFS D EXT3
A B C D
答案:C