NoSQL与大数据|面向IT护照考试整理其与RDB的区别
面向IT护照考试,整理NoSQL数据库的4种类型(KVS、文档型、列式、图型)、大数据的5V以及数据湖。
什么是NoSQL
NoSQL是“Not Only SQL”的缩写,是关系型数据库(RDB)之外的非关系型数据库的总称。其特点是能够高速处理大量数据以及具有灵活的架构,随着大数据和Web服务的扩展而广泛普及。与RDB不同,它没有固定的表结构,这是两者最大的区别。
NoSQL的4种类型
KVS(键值存储)
KVS(键值存储)是最简单的形式,以键值对的方式存储数据。其优点是读写速度快,能够承受大量访问。代表性产品包括Redis、Memcached和DynamoDB。
文档型数据库
文档型数据库以JSON或XML格式的“文档”为单位存储数据。由于是无架构的,因此可以灵活地改变结构。典型例子有MongoDB和CouchDB。
列式数据库
列式数据库采用按列存储数据的方式。它擅长聚合查询,适用于大数据分析。Cassandra和HBase是广为人知的代表。
图数据库
图数据库通过节点和边来存储数据之间的关系。在社交网络的好友关系、推荐系统、知识图谱等处理复杂关系的领域中发挥重要作用。代表性产品是Neo4j。
NoSQL与RDB的对比
| 角度 | RDB | NoSQL |
|---|---|---|
| 数据模型 | 表(行、列) | 多样化(KVS、文档等) |
| 架构 | 固定 | 灵活、无架构 |
| 一致性 | 强(ACID) | 较弱(BASE) |
| 扩展方式 | 垂直扩展(增强CPU) | 水平扩展(增加服务器) |
| 用途 | 业务系统、会计 | Web、大数据 |
什么是大数据
大数据通过称为5V的特性来定义。它取自Volume(海量数据)、Velocity(高速生成和处理)、Variety(结构化数据和非结构化数据的多样性)、Veracity(数据的准确性)和Value(能够从中创造价值)的首字母。应用实例包括推荐引擎、需求预测和欺诈检测等。
数据湖与数据仓库
数据湖是存储原始数据的存储库,无论结构化还是非结构化数据都原样保存。而数据仓库(DWH)则是预先整理成易于分析形式的数据存储库。详情请参阅数据仓库与BI。
IT护照考试的出题要点
在IT护照考试中,经常出现需要正确对应NoSQL的4种类型及其用途的题目。此外,比较RDB与NoSQL差异的题目,以及询问大数据5V各要素的题目也频繁出现。掌握这些要点可以确保得分。
历年真题的典型模式
- “以键值对形式存储的NoSQL是哪一个”类型 → KVS
- “不属于大数据特征5V的是哪一个”类型
相关术语
- RDB与SQL(关系型数据库与SQL基础)
- 规范化(数据库规范化)
- 数据仓库与BI(数据仓库与BI)
- AI与机器学习(AI与机器学习基础)
学习技巧
按照“KVS、文档、列式、图”的顺序记忆NoSQL的4种类型,更容易整理。大数据的5V请将首字母(Volume、Velocity、Variety、Veracity、Value)成套记忆。RDB注重一致性,NoSQL注重扩展性,这一行对比也有助于备考。
总结
只要牢固记住NoSQL的4种类型和大数据的5V,就能在相关题目中稳定得分。希望进一步练习技术类的考生请参考技术类汇总,想要挑战正式形式考试的考生请使用模拟考试。
相关文章
5G是什么?|面向IT护照考试整理的4G差异与活用案例
针对IT护照考试,整理了5G(第5代移动通信)的三大特征(高速、低延迟、多设备同时连接)、与4G的差异,以及在自动驾驶、远程医疗中的应用。
AI・机器学习基础|IT护照考试高频关键词整理
整理AI、机器学习、深度学习的关系,监督学习/无监督学习/强化学习的区别,以及生成式AI、LLM等IT护照考试中涉及的AI相关术语。
算法与计算量|面向IT护照的O记法及搜索·排序基础
整理面向IT护照考试的算法基础、线性搜索·二分搜索、冒泡排序·快速排序、计算量的O记法。