分类目录归档:数据库

mysql技巧(三)

覆盖索引

概念

如果索引包含所有满足查询需要的数据的索引成为覆盖索引(Covering Index),也就是平时所说的不需要回表操作

判断标准

使用explain,可以通过输出的extra列来判断,对于一个索引覆盖查询,显示为using index,MySQL查询优化器在执行查询前会决定是否有索引覆盖查询

案例

表结构如下,表数据总共485273条。

查询所有字段,没有中索引,使用文件排序。

查询type字段,也使用了文件排序。速度比全字段查询快30%。

覆盖索引,通过explain可以看到,extra中存在Using index表示,中了覆盖作用。rows扫描行数也是理论上最低的200002行。

延迟关联

延迟关联就是通过使用覆盖索引查询返回需要的主键,再根据主键关联原表获得需要的数据。

继续上面你的例子。这次我们查询200条数据。普通方法使用了0.338s。

使用延迟关联,如下,

及时查询了2次,外加一次关联,也比普通搜索快了很多。

MySQL函数不能创建的解决方法

在使用MySQL数据库时,有时会遇到MySQL函数不能创建的情况。下面就教您一个解决MySQL函数不能创建问题的方法,供您借鉴参考。

出错信息大致类似:

ERROR 1418 (HY000): This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you *might* want to use the less safe log_bin_trust_function_creators variable)
ERROR 1418 (HY000): This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you *might* want to use the less safe log_bin_trust_function_creators variable)

主从同步及主从延迟

简单的说,主从同步就是通过数据库底层二进制日志的复制来完成的。

1、 什么是二进制日志

二进制日志又称为binlog。当在配置项中开启二进制日志后,数据库会将每次操作(DDLDML)记录在二进制日志中。

mysql-binlog

进入datadir目录我们可以看到mysql-bin.xxxxx格式的文件就是二进制日志。

mysql-binlog

我们可以通过mysqlbinlog命令去查看这些日志中放了些什么东东。

2、 主从同步流程

主从原理

从图中我们我们可以看到,当客户端对主库进行操作的时候,主库会对改变数据库的操作进行记录二进制日志。这个时候从库的I/O线程(Slave_IO_Running)会将主库的二进制日志拉取到本机斌且写入中继日志中去,而从库的另一个SQL线程(Slave_SQL_Running)会将中继日志中的数据拉取出来,解析和执行。这就是一个主从同步的基本流程。

那我们可以将主从同步简单的分为3个步骤:

  1. 主库产生二进制日志
  2. 从库通过IO线程拉取二进制日志并存入中继日志
  3. 从库SQL线层从中继日志中拉取数据,解析并执行

3、 主从延迟

如果将上述三个步骤按照效率来排序的话那么会是这么一个结果: 1 > 2 > 3

为什么会是这个一个顺序呢?

  • 主库产生二进制日志是顺序写,并且有时卸载本地磁盘,所以效率是非常高的。(当然如果是SSD的话会更快)
  • 从库IO线程拉取二进制日志涉及到网络传输,所以效率就要比步骤1稍慢一些。
  • 从库SQL线程涉及到数据的操作,那么效率快慢就要看具体执行的SQL了。

那么问题就来了。因为IO线程SQL线程都是单线程。假设SQL线程执行一个SQL需要10分钟的话,此时SQL线程什么事情就不能做了,后续的SQL操作只能等待这次操作完成后才能继续执行。那么延迟自然而然的产生了。

回过头来,我们又会发现MASTER主库可以多并发写入,而多IO线程SQL线程都是单线程,当网站访问量上升,并发量增大,身为单线程的IO线程SQL线程是很难支撑的住,延迟也会自然而然的产生。

当然还有其他问题也会主从延迟,比如:SLAVE从库执行大型QUERY语句产生了锁等待。等等

虽然说MYSQL5.6.3开始支持多线程复制,事实上是针对每个database开启相应的独立线程。即每个库有一个单独的(sql thread)如果线上业务中,只有一个database或者绝大多数压力集中在个别database的话,多线程并发复制特性就没有意义了。

4、 总结

其实主从延迟是不可避免的,那么只有提升我们自己的危机的意识,码代码的时候时刻考虑着这个问题,才能避免各种BUG,从而避免为公司带来资损。

事务ACID —— 隔离性

什么是隔离性 ?

当两个或者多个事务并发访问(此处访问指查询和修改的操作)数据库的同一数据时所表现出的相互关系。
引用自 维基百科 —— ACID

多个事务单元之间的关系可以是以下四种:

  • 读读
  • 读写
  • 写读
  • 写写

序列化读写(Serializable)

上一篇事务ACID —— 一致性中说到,对同一数据访问时,为了强一致性的表现,就利用排他锁把一个有一个的事务排成一个队,这就是序列化读写级别

这个时候数据是非常安全的,不会出现混乱的情况。但是在这个级别的时候就会出现一个很严重的问题,没有并发,系统性能差。

可重复读(repeatable read)

为了解决序列化读写级别性能差,那么就有人想出来了,把排他锁变为读写锁。那么就可以提升系统的性能。

可重复读级别就是把序列化读写级别排他锁变为读写锁(读锁不能升级为写锁),这样就实现了读读并行。

可以从图二中看出,相对于图一,此时读读已经并行了。

读已提交(read committed)

为了进一步提升性能,人们就把可重复读级别读写锁(读锁不能升级为写锁)变更为读写锁(读锁可以升级为写锁)

那么我们可以看到下图,并发有进一步提升了。此时就实现了读读、读写并行(写读还不能并行)。

读未提交(Read uncommitted)

当只加写锁不添加读锁时候,看下图可以发现,读的顺序被上升了一格。

这种情况下,会出现幻读和脏读情况(读到写事务未提交的数据,写事务可能会出现回滚,那么读到的数据就是不存在的一个数据)。

总结

其实我们发现,隔离性的4中级别就是各种锁的不同组合变成了不同的隔离级别。
重另一个方面来说,隔离性就是以性能为借口,对一致性的一种破坏。

扩展,快照隔离级别(sanpshot isolation)/多版本并发控制(mvcc)

快照隔离级别的核心思路就是无锁编程,·copy on write·。

简单的说,将每次更新记录到一个回滚段之中。在写事务发生时,读事务进来,可以直接进入回滚段中读取数据。它的并行度可以达到读未提交级别,数据安全性可以达到可序列化读写级别

但是它也有一个缺点,就是会产生大量的二进制日志。

事务ACID —— 一致性

什么是一致性 ?

在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的默认规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。
引用自维基百科 —— ACID

上一篇文章中事务ACID —— 原子性,原子性的特性是要么成功,要么失败,不存在中间状态。

那么一致性的核心是什么?

一致性的核心就是一个词happen-before。简单的说,就是can

假设 事务A事务B的关系是前后关系,那么这就没有任何问题。
但是所有事务单元不可能是完美意义上的先后关系,它一定会存在不同意义上的并发。
当2个事务单元并发时怎么办?

继续拿上一边文章中的A 和 B转账案例来说,

假设 事务A 是上边这个操作,当事务A执行到ver2时,A 和 B 都是 0 元, 此时 事务B 为 C 给 B 转账了300元,那么 B 就应该有300 元了。就在这个时候 事务A执行失败,事务为了保持原子性,操作回滚,那么B的钱就滚回了0元,也就是B资损了300元。那么也就出现了金钱不一致的情况。

那么最简单的方法就是加锁,让事务B不影响事务A的执行结果。如下:

有了这个锁以后,事务B就会形成要么在事务A之前执行,要么在其之后执行。这就是一致性给到的保障。这样做以后我们就会发现,这个其实就是把所有的请求做了一个排队的处理。但是它有一个致命的缺点就是它的并发是起不来的,那么性能也就是极差的。

由此我们可以总结,一致性就是一个事务单元只有在全部成功后,才可以对外可见。拿转账业务来说就是要么A有100元,要么B有100元。当ver2时,A和B都为0元是对外不可见的,外部是访问不到的。

事务ACID —— 原子性

什么是原子性 ?

一个交易(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。
引用自 维基百科 —— ACID

即一个事务我要么成功,要么失败,没有中间状态。

如何回滚 ?

场景: A 对 B 进行转账

以上步骤,假设说在ver3为B加上100元时发生错误。
如果没有事务那么系统数据就会停留在ver2这里,那么就会造成A减掉了100元,而B也没有拿到这个100元,造成了用户资损。
添加上事务后,那么系统就会回滚到ver1,数据还原成了初始状态。

那么事务失败,需要数据回滚。数据库是如何实现的呢?

其实数据库在事务开启后,当我们做的每一次变更,系统就会自动创建一个undo。那么需要回滚时候,数据库就会按照undo来进行回滚。如下:

Mysql 之 分区技术

分区概述:
SQL标准在数据存储的物理方面没有提供太多的指南。SQL语言的使用独立于它所使用的任何数 据结构或图表、表、行或列下的介质。但是,大部分高级数据库管理系统已经开发了一些根据文件系统、硬件或者这两者来确定将要用于存储特定数据块物理位置的 方法。在MySQL中,InnoDB存储引擎长期支持表空间的概念,并且MySQL服务器甚至在分区引入之前,就能配置为存储不同的数据库使用不同的物理 路径。
分区又把这个概念推进了一步,它允许根据可以设置为任意大小的规则,跨文件系统分配单个表的多个部分。
实际上,表的不同部分在不同的位置被存储为单独的表。
用户所选择的、实现数据分割的规则被称为分区函数,这在MySQL中它可以是模数,或者是简单的匹配一个连续的数值区间或数值列表,或者是一个内部HASH函数,或一个线性HASH函数。
函 数根据用户指定的分区类型来选择,把用户提供的表达式的值作为参数。该表达式可以是一个整数列值,或一个作用在一个或多个列值上并返回一个整数的函数。这 个表达式的值传递给分区函数,分区函数返回一个表示那个特定记录应该保存在哪个分区的序号。这个函数不能是常数,也不能是任意数。它不能包含任何查询,但 是实际上可以使用MySQL 中任何可用的SQL表达式,只要该表达式返回一个小于MAXVALUE(最大可能的正整数)的正数值。
可以通过使用SHOW VARIABLES命令来确定MySQL是否支持分区

 

分区类型:
  • RANGE分区
  • LIST分区
  • HASH分区
  • KEY分区
  • 子分区
RANGE 分区:基于属于一个给定连续区间的列值,把多行分配给分区。
LIST 分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
KEY 分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。

 

 

 

 

参考:http://blog.sina.com.cn/s/blog_919f173b01014ujg.html

Mysql 之 binlog

一、简介

mysql的binlog是个好东西,什么主从复制、实时备份、意外删除数据后还原数据可以用到它。

 

二、配置

 

三、 简单操作、命令

1、binlog存放在那里

 2、命令

 3、使用mysqlbinlog命令查看binlog

 4、还原数据

 

 

 

 

 

附:

 

Redis(十) —— 为php增加redis扩展

一、下载

访问https://github.com/nicolasff/phpredis,下载phpredis

二、解压、编译、安装

 三、关联php

 

 

Redis(九) —— 安全

一、设置权限密码

1、打开、编辑redis的配置文件

2、添加配置

3、重启redis

4、登录

 

注意:因为redis处理速度非常快,为了防止别人强行枚举破数据库密码,最好把密码强度设置的强一点。

 

二、重命名config