mysql数据库去重，mysql数据库去重：(mysql数据库去重)

编程之家2023-10-22271次浏览

本篇文章给大家谈谈mysql数据库去重，以及mysql数据库去重:(mysql数据库去重)对应的知识点，文章可能有点长，但是希望大家可以阅读完，增长自己的知识，最重要的是希望对各位有所帮助，可以解决了您的问题，不要忘了收藏本站喔。

关于mysql数据库里面数据类型number的问题

MySQL数据类型细分下来，大概有以下几类：

数值，典型代表为 tinyint,int,bigint

浮点/定点，典型代表为 float,double,decimal以及相关的同义词

字符串，典型代表为 char,varchar

时间日期，典型代表为 date,datetime,time,timestamp

二进制，典型代表为 binary,varbinary

位类型

枚举类型

集合类型

大对象，比如 text,blob

json文档类型

一、数值类型（不是数据类型，别看错了）如果用来存放整数，根据范围的不同，选择不同的类型。

以上是几个整数选型的例子。整数的应用范围最广泛，可以用来存储数字，也可以用来存储时间戳，还可以用来存储其他类型转换为数字后的编码，如 IPv4等。示例 1用 int32来存放 IPv4地址，比单纯用字符串节省空间。表 x1，字段 ipaddr，利用函数 inet_aton，检索的话用函数 inet_ntoa。

查看磁盘空间占用，t3占用最大，t1占用最小。所以说如果整数存储范围有固定上限，并且未来也没有必要扩容的话，建议选择最小的类型，当然了对其他类型也适用。root@ytt-pc:/var/lib/mysql/3305/ytt# ls-sihl总用量 3.0G3541825 861M-rw-r----- 1 mysql mysql 860M 12月 10 11:36 t1.ibd3541820 989M-rw-r----- 1 mysql mysql 988M 12月 10 11:38 t2.ibd3541823 1.2G-rw-r----- 1 mysql mysql 1.2G 12月 10 11:39 t3.ibd

二、浮点数/定点数先说浮点数，float和 double都代表浮点数，区别简单记就是 float默认占 4 Byte。float(p)中的 p代表整数位最小精度。如果 p> 24则直接转换为 double，占 8 Byte。p最大值为 53，但最大值存在计算不精确的问题。再说定点数，包括 decimal以及同义词 numeric，定点数的整数位和小数位分别存储，有效精度最大不能超过 65。所以区别于 float的在于精确存储，必须需要精确存储或者精确计算的最好定义为 decimal即可。示例 3创建一张表 y1，分别给字段 f1,f2,f3不同的类型。mysql-(ytt/3305)->create table y1(f1 float,f2 double,f3 decimal(10,2));Query OK, 0 rows affected(0.03 sec)

三、字符类型字符类型和整形一样，用途也很广。用来存储字符、字符串、MySQL所有未知的类型。可以简单说是万能类型！

char(10)代表最大支持 10个字符存储，varhar(10)虽然和 char(10)可存储的字符数一样多，不同的是 varchar类型存储的是实际大小，char存储的理论固定大小。具体的字节数和字符集相关。示例 4例如下面表 t4，两个字段 c1,c2，分别为 char和 varchar。mysql-(ytt/3305)->create table t4(c1 char(20),c2 varchar(20));Query OK, 0 rows affected(0.02 sec)

所以在 char和 varchar选型上，要注意看是否合适的取值范围。比如固定长度的值，肯定要选择 char；不确定的值，则选择 varchar。

四、日期类型日期类型包含了 date,time,datetime,timestamp，以及 year。year占 1 Byte，date占 3 Byte。

time,timestamp,datetime在不包含小数位时分别占用 3 Byte,4 Byte,8 Byte；小数位部分另外计算磁盘占用，见下面表格。

请点击输入图片描述

注意：timestamp代表的时间戳是一个 int32存储的整数，取值范围为'1970-01-01 00:00:01.000000'到'2038-01-19 03:14:07.999999'；datetime取值范围为'1000-01-01 00:00:00.000000'到'9999-12-31 23:59:59.999999'。

综上所述，日期这块类型的选择遵循以下原则：

1.如果时间有可能超过时间戳范围，优先选择 datetime。2.如果需要单独获取年份值，比如按照年来分区，按照年来检索等，最好在表中添加一个 year类型来参与。3.如果需要单独获取日期或者时间，最好是单独存放，而不是简单的用 datetime或者 timestamp。后面检索时，再加函数过滤，以免后期增加 SQL编写带来额外消耗。

4.如果有保存毫秒类似的需求，最好是用时间类型自己的特性，不要直接用字符类型来代替。MySQL内部的类型转换对资源额外的消耗也是需要考虑的。

示例 5

建立表 t5，对这些可能需要的字段全部分离开，这样以后写 SQL语句的时候就很容易了。

当然了，这种情形占用额外的磁盘空间。如果想在易用性与空间占用量大这两点来折中，可以用 MySQL的虚拟列来实时计算。比如假设 c5字段不存在，想要得到 c5的结果。mysql-(ytt/3305)->alter table t5 drop c5, add c5 year generated always as(year(c1)) virtual;Query OK, 1 row affected(2.46 sec)Records: 1 Duplicates: 0 Warnings: 0

五、二进制类型

binary和 varbinary对应了 char和 varchar的二进制存储，相关的特性都一样。不同的有以下几点：

binary(10)/varbinary(10)代表的不是字符个数，而是字节数。

行结束符不一样。char的行结束符是 \0，binary的行结束符是 0x00。

由于是二进制存储，所以字符编码以及排序规则这类就直接无效了。

示例 6

来看这个 binary存取的简单示例，还是之前的变量@a。

切记！这里要提前计算好@a占用的字节数，以防存储溢出。

六、位类型

bit为 MySQL里存储比特位的类型，最大支持 64比特位，直接以二进制方式存储，一般用来存储状态类的信息。比如，性别，真假等。具有以下特性：

1.对于 bit(8)如果单纯存放 1位，左边以 0填充 00000001。2.查询时可以直接十进制来过滤数据。3.如果此字段加上索引，MySQL不会自己做类型转换，只能用二进制来过滤。

示例 7

创建表 c1,字段性别定义一个比特位。mysql-(ytt/3305)->create table c1(gender bit(1));Query OK, 0 rows affected(0.02 sec)

mysql-(ytt/3305)->select cast(gender as unsigned)'f1' from c1;+------+| f1|+------+| 0|| 1|+------+2 rows in set(0.00 sec)

过滤数据也一样，二进制或者直接十进制都行。mysql-(ytt/3305)->select conv(gender,16,10) as gender \-> from c1 where gender= b'1';+--------+| gender|+--------+| 1|+--------+1 row in set(0.00 sec)mysql-(ytt/3305)->select conv(gender,16,10) as gender \-> from c1 where gender='1';+--------+| gender|+--------+| 1|+--------+1 row in set(0.00 sec)

其实这样的场景，也可以定义为 char(0)，这也是类似于 bit非常优化的一种用法。

mysql-(ytt/3305)->create table c2(gender char(0));Query OK, 0 rows affected(0.03 sec)

那现在我给表 c1简单的造点测试数据。

mysql-(ytt/3305)->select count(*) from c1;+----------+| count(*)|+----------+| 33554432|+----------+1 row in set(1.37 sec)

把 c1的数据全部插入 c2。

mysql-(ytt/3305)->insert into c2 select if(gender= 0,'',null) from c1;Query OK, 33554432 rows affected(2 min 18.80 sec)Records: 33554432 Duplicates: 0 Warnings: 0

两张表的磁盘占用差不多。root@ytt-pc:/var/lib/mysql/3305/ytt# ls-sihl总用量 1.9G4085684 933M-rw-r----- 1 mysql mysql 932M 12月 11 10:16 c1.ibd4082686 917M-rw-r----- 1 mysql mysql 916M 12月 11 10:22 c2.ibd

检索方式稍微有些不同，不过效率也差不多。所以说，字符类型不愧为万能类型。

七、枚举类型

枚举类型，也即 enum。适合提前规划好了所有已经知道的值，且未来最好不要加新值的情形。枚举类型有以下特性：

1.最大占用 2 Byte。2.最大支持 65535个不同元素。3. MySQL后台存储以下标的方式，也就是 tinyint或者 smallint的方式，下标从 1开始。4.排序时按照下标排序，而不是按照里面元素的数据类型。所以这点要格外注意。

示例 8

创建表 t7。mysql-(ytt/3305)->create table t7(c1 enum('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));Query OK, 0 rows affected(0.03 sec)

八、集合类型

集合类型 SET和枚举类似，也是得提前知道有多少个元素。SET有以下特点：

1.最大占用 8 Byte，int64。2.内部以二进制位的方式存储，对应的下标如果以十进制来看，就分别为 1,2,4,8，...，pow(2,63)。3.最大支持 64个不同的元素，重复元素的插入，取出来直接去重。4.元素之间可以组合插入，比如下标为 1和 2的可以一起插入，直接插入 3即可。

示例 9

定义表 c7字段 c1为 set类型，包含了 8个值，也就是下表最大为 pow(2,7)。

mysql-(ytt/3305)->create table c7(c1 set('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));Query OK, 0 rows affected(0.02 sec)

插入 1到 128的所有组合。

mysql-(ytt/3305)->INSERT INTO c7WITH RECURSIVE ytt_number(cnt) AS( SELECT 1 AS cnt UNION ALL SELECT cnt+ 1 FROM ytt_number WHERE cnt< pow(2, 7))SELECT*FROM ytt_number;Query OK, 128 rows affected(0.01 sec)Records: 128 Duplicates: 0 Warnings: 0

九、数据类型在存储函数中的用法

函数里除了显式声明的变量外，默认 session变量的数据类型很弱，随着给定值的不同随意转换。

示例 10

定义一个函数，返回两个给定参数的乘积。定义里有两个变量，一个是 v_tmp显式定义为 int64，另外一个@vresult随着给定值的类型随意变换类型。

简单调用下。

mysql-(ytt/3305)->select ytt_sample_data_type(1111,222)'result';+--------------------------+| result|+--------------------------+| The result is:'246642'.|+--------------------------+1 row in set(0.00 sec)

本篇把 MySQL基本的数据类型做了简单的介绍，并且用了一些容易理解的示例来梳理这些类型。我们在实际场景中，建议选择适合最合适的类型，不建议所有数据类型简单的最大化原则。比如能用 varchar(100)，不用 varchar(1000)。

mysql 多个字段有重复数据, 我需要进行去重处理

过滤重复数据

有些 MySQL数据表中可能存在重复的记录，有些情况我们允许重复数据的存在，但有时候我们也需要删除这些重复的数据。

如果你需要读取不重复的数据可以在 SELECT语句中使用 DISTINCT关键字来过滤重复数据。

你也可以使用 GROUP BY来读取数据表中不重复的数据：

资料来源：树懒学堂

mysql数据库去重:(mysql数据库去重)

一般情况下，数据库去重复有以下那么三种方法：

第一种：

两条记录或者多条记录的每一个字段值完全相同，这种情况去重复最简单，用关键字distinct就可以去掉。例：

SELECTDISTINCT*FROMTABLE

第二种：

两条记录之间之后只有部分字段的值是有重复的，但是表存在主键或者唯一性ID。如果是这种情况的话用DISTINCT是过滤不了的，这就要用到主键id的唯一性特点及groupby分组。例：

SELECT*FROMTABLEWHEREIDIN(SELECTMAX(ID)FROMTABLEGROUPBY[去除重复的字段名列表,....])

第三种：

两条记录之间之后只有部分字段的值是有重复的，但是表不存在主键或者唯一性ID。这种情况可以使用临时表，讲数据复制到临时表并添加一个自增长的ID，在删除重复数据之后再删除临时表。例：

//创建临时表，并将数据写入到临时表

SELECTIDENTITY(INT1,1)ASID,*INTONEWTABLE(临时表)FROMTABLE

//查询不重复的数据

SELECT*FROMNEWTABLEWHEREIDIN(SELECTMAX(ID)FROMNEWTABLEGROUPBY[去除重复的字段名列表,....])

//删除临时表

DROPTABLENEWTABLE

mysql 对某几个字段去重

-------------------部分字段重复---------------------

--1.加索引的方式

create table test_2(id int,value int);

insert test_2 select 1,2 union all select 1,3 union all select 2,3;

Alter IGNORE table test_2 add primary key(id);

select* from test_2;

+----+-------+

| id| value|

+----+-------+

| 1| 2|

| 2| 3|

+----+-------+

我们可以看到 1 3这条记录消失了

我们这里也可以使用Unique约束因为有可能列中有NULL值，但是这里NULL就可以多个了..

--2.联合表删除

create table test_2(id int,value int);

insert test_2 select 1,2 union all select 1,3 union all select 2,3;

delete A from test_2 a join(select MAX(value) as v,ID from test_2 group by id) b

on a.id=b.id and a.value<>b.v;

select* from test_2;

+------+-------+

| id| value|

+------+-------+

| 1| 3|

| 2| 3|

+------+-------+

--3.使用Increment_auto也可以就是上面全部字段去重的第二个方法

--4.容易错误的方法

--有些朋友可能会想到子查询的方法，我们来试验一下

create table test_2(id int,value int);

insert test_2 select 1,2 union all select 1,3 union all select 2,3;

delete a from test_2 a where exists(select* from test_2 where a.id=id and a.value<value);

/*ERROR 1093(HY000): You can't specify target table'a' for update in FROM clause*/

目前，您不能从一个表中删除，同时又在子查询中从同一个表中选择。

关于mysql数据库去重，mysql数据库去重:(mysql数据库去重)的介绍到此结束，希望对大家有所帮助。

数据库原理与应用教程？数据库原理与应用教程第4版课后习题答案(何玉洁)dns服务器ip地址 dns服务器地址是什么