最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

mysql高效删除大数据量表中的重复数据_MySQL

来源:动视网 责编:小采 时间:2020-11-09 19:20:31
文档

mysql高效删除大数据量表中的重复数据_MySQL

mysql高效删除大数据量表中的重复数据_MySQL:boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。如果删除小表,不担心效率,可以用下面方式删除,http://jimmy9495.iteye.com/admin/blogs/2072785但是用上面的sql如果想在大表操作删
推荐度:
导读mysql高效删除大数据量表中的重复数据_MySQL:boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。如果删除小表,不担心效率,可以用下面方式删除,http://jimmy9495.iteye.com/admin/blogs/2072785但是用上面的sql如果想在大表操作删


boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。
如果删除小表,不担心效率,可以用下面方式删除,
http://jimmy9495.iteye.com/admin/blogs/2072785
但是用上面的sql如果想在大表操作删除,肯定是不行的。
mysql大数据表中的快速删除部分数据办法:
1.创建删除重复的存储过程
DELIMITER $$USE `bossdb` $$DROP PROCEDURE IF EXISTS `del` $$CREATE DEFINER = `root` @`localhost` PROCEDURE `del` () BEGIN/** 定义后面循环用到的变量*/DECLARE coun1 INT ;DECLARE count2 INT ;DROP TABLE IF EXISTS tmp_imsi;DROP TABLE IF EXISTS tmp_all;DROP TABLE IF EXISTS tmp_keep;DROP TABLE IF EXISTS tmp_delete;/** 创建临时表*/CREATE TABLE tmp_imsi AS SELECT t.imsi AS imsi FROM boss_t_tour t WHERE t.imsi <> '' GROUP BY t.imsi HAVING COUNT(t.imsi) >1; CREATE TABLE tmp_all AS SELECT t.id,t.imsi AS imsi FROM boss_t_tour t WHERE t.imsi IN (SELECT imsi FROM tmp_imsi); CREATE TABLE tmp_keep AS SELECT MIN(a.id) AS id FROM tmp_all a GROUP BY a.imsi; CREATE TABLE tmp_delete AS SELECT a.id AS id FROM tmp_all a WHERE a.id NOT IN (SELECT id FROM tmp_keep) ;/** 先删除索引提高删除速度*/ALTER TABLE `bossdb`.`boss_t_tour` DROP INDEX `imsi_index`,DROP INDEX `syncstatusInded`;/** 循环删除开始*//** 原计划用此子查询删除,DELETE FROM boss_t_tour WHERE EXISTS (SELECT 1 FROM tmp_delete WHERE boss_t_tour.id = tmp_delete.id);*//** 但是发现mysql子查询删除效率奇慢,本机测试主表150W数据 临时表8000条数据 删除3000条用了一个小时,效率太差不敢在生产环境使用。*//** 用下面的循环删除效率高很多,删除8000多条数据5分钟 */SELECT COUNT(*) INTO coun1 FROM tmp_delete;WHILE coun1 > 0 DO SELECT id INTO count2 FROM tmp_delete LIMIT 1 ;DELETE FROM boss_t_tour WHERE id = count2 ;DELETE FROM tmp_delete WHERE id = count2 ;COMMIT ;SET coun1 = coun1 - 1 ;END WHILE ;/** 循环删除结束*//** 重建索引*/ALTER TABLE `bossdb`.`boss_t_tour` ADDINDEX `imsi_index` (`imsi`),ADDINDEX `syncstatusInded` (`sync_status`);/** 删除临时表*/DROP TABLE IF EXISTS tmp_imsi;DROP TABLE IF EXISTS tmp_all;DROP TABLE IF EXISTS tmp_keep;DROP TABLE IF EXISTS tmp_delete;END $$DELIMITER ;
2.执行存储过程
CALL del();
本机执行5分钟完成。
写的过程中还发现个问题mysql的delete操作居然不能给 表定义别名。。

文档

mysql高效删除大数据量表中的重复数据_MySQL

mysql高效删除大数据量表中的重复数据_MySQL:boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。如果删除小表,不担心效率,可以用下面方式删除,http://jimmy9495.iteye.com/admin/blogs/2072785但是用上面的sql如果想在大表操作删
推荐度:
标签: 删除 数据 大数据
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top