NoSQL概述

为什么要用Nosql：大数据

发展

单机MySQL年代

单机SQL

网站瓶颈：

数据量太大，一个机器放不下；
数据索引（B+ Tree）一个机器内存放不下；
访问量太大；

Memcached（缓存） + MySQL + 垂直拆分

优化发展过程：

优化数据结构和索引；
文件缓存（IO）；
Memcached。（当时最热门的技术）

Memcached

网站80%的情况都是在读，每次到数据库查询非常麻烦；为减轻数据库压力，可以设置缓存。

分库分表：水平拆分

水平拆分：Mysql集群。

为什么要用NoSQL

用户个人信息，社交网络，地理位置。用户自己产生的数据，用户日志等等爆发式的增长！

NoSQL可以很好地处理以上的情况；

什么是NoSQL

NoSQL = Not Only SQL （不仅仅是SQL）

泛指：非关系型数据库

随着Web2.0互联网的诞生，传统的关系型数据库已难以应付，尤其是超大规模的高并发的社区！

很多数据类型用户的个人信息，社交网络，地理位置。这些数据类型的存储不需要一个固定的格式。不需要多余的操作就可以横向扩展的。使用键值对来控制。

NoSQL特点

方便扩展（数据之间没有关系，扩展方便！）
大数据量高性能（Redis 一秒可以写8万次）
数据类型多样型
传统RDBMS与NoSQL区别
- RDBMS
  - 结构化组织
  - SQL
  - 数据和关系都存储在单独的表中 row col
  - 数据操作语言，数据定义语言
  - 严格的一致性
  - 基础的事务操作
  - …
- NoSQL
  - 不仅仅是数据
  - 没有固定查询语言
  - 多种存储方式：键值对存储，列存储，文档存储，图形数据库（社交关系）
  - 最终一致性
  - CAP定理和BASE理论（异地多活！）
  - 高性能，高可用，高可扩展性
  - …

大数据时代的3V+3高

3V：用来描述问题

海量Volume，多样Variety，实时Velocity

3高：对程序的要求

高并发
高可扩（随时水平拆分，随时扩展机器）
高性能（保证用户体验和性能）

数据架构

商品的基本信息
- 名称、价格、商家信息
- 使用关系型数据库；
商品的描述，评论（文字比较多的情况）
- 使用文档型数据库，MongoDB
图片
- 分布式文件系统，FastDFS；
- 淘宝自己的：TFS
- Google：GFS
- Hadoop：HDFS
- 阿里云： OSS
商品的关键字（用来搜索）
- 搜索引擎 solr，elasticsearch
- 淘宝用的：ISearch
商品的热门波段信息
- 内存数据库 Redis，Tair，Memcache…
商品的交易，外部的支付接口
- 三方应用。

大型互联网的应用问题

数据类型太多了
数据源繁多，经常重构
数据要改造，需要大面积改造

解决方案：UDSL（统一的数据服务层）。

NoSQL四大分类

KV键值对：
- 新浪：Redis
- 美团：Redis + Tair
- 阿里、百度：Redis + memcache
文档型数据库（bson格式，与JSON一样）
- MongoDB
  - MongoDB（一般必须要掌握）：基于分布式文件存储的数据库，用C++编写，主要用来处理大量的文档。
  - MongoDB是一个介于关系型数据库和非关系型数据库中间的产品。
  - MongoDB是非关系型数据库中功能最丰富最像关系型数据库的。
- ConthDB
列存储数据库
- HBase
- 分布式文件系统
图形关系数据库
- 不是用来存图形的
- 存储关系，比如：朋友圈社交网络，广告推荐。
- Neo4j，infoGrid

分类	举例	典型应用场景	数据模型	优点	缺点
键值对	Redis，Oracle BDB	内容缓存，主要用于存储大量数据的高访问负载，也用于一些日志系统等等	Key指向Value的键值对，通常用hash table实现	查找速度快	数据无结构化，通常只被当做字符串或二进制数据。
列存储数据库	Cassandra，HBase	分布式文件系统	以列簇式存储，将同一列数据存在一起	查找速度快，可扩展性强，更容易进行分布式扩展	功能相对局限
文档型数据库	CouchDB,MongoDB	Web应用（与Key-Value类似，Value是结构化的，不同的是数据库能够了解Value的内容）	Key-Value对应的键值对，Value为结构化数据	数据结构要求不严格，表结构可变，不需要像关系数据库一样需要预先定义表结构	查询性能不高，而且缺乏统一的查询语法
图形数据库	Neo4J，InfoGrid，Infinite Graph	社交网络，推荐系统等，专注于构建关系图谱	图结构	利用图结构相关算法，比如最短路径寻址，N度关系查找等	很多时候需要对整个图做计算才能得出需要的信息，而且这种结构不太好做分布式的集群方案

其他

垂直拆分：读写分离

Memcached

三个mysql服务器，

可以设定，第二个负责写，其他两个负责读；

写数据到2，读数据到1和3；1和3随时同步来自2的数据。

水平拆分：Mysql集群

Mysql引擎

早些年MyISAM：表锁（读写锁整个表，十分影响效率，高并发会有严重的问题）

现在Innodb：行锁（读写锁一行）。

Redis数据类型

五大基础数据类型
- String
- List
- Set
- Hash
- Zset
三种特殊数据类型
- geo
- hyperloglog
- bitmap

要学的

Redis，MongoDB，HBase，Neo4j