李国良
清华大学
大数据下的数据管理领域研究体会
每个研究领域都有入门的门槛,进入门槛之前,研究者像无头的苍蝇一样,感觉处处有困惑,到处碰壁;而进入门槛之后则变得得心应手,柳暗花明。但是如何跨过这道门槛则需要研究者不懈的努力拼搏。在此结合数据管理方面的研究介绍本人的点滴工作体会。
选题具有前瞻性
首先,选题是各个研究领域重中之重的问题,选择一个合适的题目对研究的开展起到至关重要的作用。每个研究题目都包含
关键词:IEEE 杰出新人奖 研究体会
问题提出、方案攻关、技术优化、问题扩展四个阶段。下面通过一个“猪会飞”的例子来形象地描述科研的这几个阶段:A 提出了“猪会飞”的新问题,并给出了“如
何让猪飞”的初步解决方案;针对A 提出的新问题,B 研究“如何让猪飞得更快”,C 研究“如何让猪飞得更高”,而D 研究“如何让猪飞得又高又快”,⋯⋯,接下来出现很多关于“猪飞”的研究成果。不难看出,A 提出了问题,而B 、C 、D 进行了方法的优化以及问题的扩展。通常情况下,每个研究题目都有一个研究周期,问题刚提出时研究很火热(例如
1998年半结构化数据管理问题的提出,2006年不确定性数据问题的提出),随着研究进展,问题研究难度越来越大(例如2005年半结构化数据管理问题已经得到了广泛的研究,此后相关研究逐渐变少),到最后问题逐渐研究透彻,直到没有研究空间。研究问题的热度随着时间变化的过程如图1
编者按:
李国良是清华大学计算机系副教授,主要研究海量多源异构数据的融合与管理,在数据管理顶级会议和期刊发表论文40余篇。他针对互联网数据海量性、多源性、异构性、实体不一致性、不完整性、不准确性的特点,围绕“多源异构数据融合管理”这一重要问题,以互联网数据质量最大化为目标,以多源数据融合计算为核心,以为用户提供高质量的信息服务为宗旨,研究多源异构数据获取、表示、融合、检索的理论与方法。从数据获取、数据统一表示、数据融合、数据检索等四个层次研究多源异构数据处理的关键科学问题,建立了一套多源异构数据融合与管理方法。凭借在数据管理方面的突出贡献,李国良获得2014年IEEE 数据工程领域的杰出新人奖(IEEE TCDE Early Career Award)。该奖项面向全球范围内获得博士学位不超过5年的青年学者评选,旨在表彰在数据管理研究中作出突出贡献的学者。本年度仅有李国良一人获得该奖项,在美国芝加哥召开的ICDE 2014大会上进行颁奖。该奖项由IEEE-CS 下属的数据工程技术委员会颁发。
图1 问题的不同研究阶段
所示。
但是如何了解一个研究问题在每个时间点的研究热度呢?个人认为有几个比较好的方法:(1)按照在顶级会议发表的论文数量画一张类似于图1的时间-热点研究曲线,通过该曲线可以了解每个研究问题在不同时间点的热度,并可以通过预测的方法来判断未来热度走势。(2)分析该研究问题在不同档次会议上论文的发表情况,新问题一般发表在顶级会议上,而随着研究的开展,研究难度逐步增大,论文逐渐向其他低档次会议转移,因此可以根据在各种档次会议上的论文发表情况来推断该问题的研究热度。(3)可以多和知名研究者(牛人)进行交流,讨论研究热点和趋势。
新问题和老问题的研究方法截然不同。新问题不需要复杂的技术深度,也不需要和现有方法进行对比分析。然而提出新问题是一件非常难的事情,需要一定的研究积累,一般情况下,新问题都是由牛校牛研究组的牛人提出来的,而更多的研究者则跟随这些人研究如何解决已有的问题,类似于“挖坑”(新问题)和“灌水”(提出各种方法来解决该问题)。提出新问题的难点在于说服审稿人接受该问题,详细给出该问题的科学意义、应用前景、研究挑战和如何进行实验评测(是否有相关数据集,如何评测分析)。而研究老问题的难点在于如何提出新技术和新方法来解决该问题,突破老方法的技
术壁垒。提出的方法一定要有技
术深度和创新性,此外还需要和
现有方法进行详细的实验比较和
分析。老问题的研究难度大,而
且随着时间的变化,研究难度越
来越大,因此研究老问题的过程
类似于啃骨头,最开始骨头上肉
很多,很容易吃到肉,随后肉越
来越少,越来越难啃。因此把握
住研究热点从而挑选一个有前瞻
性的题目就变得十分重要。
不仅研究生面临着选题的问
题,很多青年教师由于各种原因
也需要更换研究题目(例如原有
题目已经过时或者更换了研究环
境)。选题时经常遇到的一个问题
是什么研究题目具有前瞻性?前
瞻性题目一般是问题提出不久,
还有很多难点需要攻克,例如图
1曲线中上坡的位置,研究问题
越早(例如目前的众包和知识图
谱),越容易出成果,而且容易得
到其他研究者的关注。为了得到
该曲线,可以首先阅读大量顶级
会议的论文,画出每个研究题目
的时间-热度图,挑选出比较适
合于自己的研究的题目。另外一
个方法就是多讨论多交流,多参
加国际会议,和国内外同行进行
深入讨论,选出合适的题目。还
有就是通过学科交叉来发现新的
问题或者找到新的应用。
青年教师深入科研
第一线
要想取得优秀的学术成果,
青年教师必须要深入到研究第一
线。低年级博士生对于科研没有
经验,对选题、攻关、实验、论
文撰写都不熟悉,像无头的苍蝇
一样无从下手,很难完成一
个出色的学术成果,因此需要
导师进行深入指导,带领研究
生逐渐走入学术研究大门。一
名优秀的导师能使研究变得事
半功倍,早日达到科研顶峰。
由于计算机技术更新换代非常
快,很多问题容易过时,因此
青年教师一定要坚守在科研第
一线,对现有热点有着深入的
把握,否则很容易落伍。
研究生一般针对某个具体问
题进行深入研究,仅对某一特定
问题了解深入,而对其他问题略
知一二。但是对于青年教师来讲,
知识面一定要广,对本领域的每
个问题都要有所了解。其实不同
领域的研究是相通的,只不过是
门槛不一样而已,各个领域的研
究都会有借鉴意义,因此青年教
师一定要扩充自己的知识面,做
到融会贯通。
关键技术攻关
选择了一个题目之后就要对
关键技术攻关,提出新的方法来
解决问题。一个好的解决方案一
定要新颖,有技术深度和创新性,
切忌堆积现有技术或者简单修改
现有技术,而没有任何实质性贡
献。评价一个方法是否有创新性
和技术深度的标准一般是小同行
在十分钟内很难想到该方法。对
于不同问题,研究思路不尽相同,但是数据管理领域的基本思路是通过设计索引来提高查询处理的性能,因此从事数据管理工作的研究者一定要熟练掌握常用的索引技术(B树、R树等)和查询优化算法(排序连接和哈希连接等)。通过现有索引技术来激发灵感,设计针对指定问题的索引技术。给出关键技术后,要对提出的方法进行实验分析,验证提出方法的有效性。实验时,一定要分析每个提出的关键技术点,展示每个关键技术点的有效性,如果有相关工作,要进行深入对比分析。
科学研究切忌狗熊掰棒子,掰一个扔一个,最后什么都没留下。做科研一定要持之以恒,不退缩,不气馁,不眼高手低,只有坚持才能取得成绩。遇到困难可以多和实验室同学讨论交流,不要钻牛角尖,换个思路或许可以另辟蹊径。
论文撰写要过关
学术论文的撰写类似于八股文,每个领域都有自己的规则(包括论文风格、论文结构、技术深度和实验设计等),出色的研究者对撰写论文的规则都了如指掌。所以每个研究领域都有一个门槛,只有过了这道门槛,论
文才有可能被顶级会议接受。在
数据管理研究领域中期刊、会议
(尤其是SIGMOD, VLDB, ICDE1
等顶级会议),对论文撰写的要
求很高,其规则主要如下。(1)
技术难度大、创新性强:至少包
含3个贡献点,每个贡献点至少
写1.5页,而且一定要有创新性,
不能简单地利用现有技术,需要
提出新颖的方法。(2)逻辑清晰:
文章的撰写一定要提纲挈领,首
先给出整篇论文的思路(引出3
个技术点),然后对其进行详细
描述,让读者能够比较容易抓住
论文的贡献和思路。(3)图文并
茂:技术难点需要通过图的形式
来进行直观的展现,而且要通过
全局的例子来详细阐述每个技术
点,体现技术点的效果。(4)实
验充足:一定能验证提出方法的
有效性。数据管理领域更关注计
算性能,因此一定要分析所提方
法的效率和可扩展性。(5)相关
文献了解透彻:一定要透彻分析
与现有工作的区别和联系,给出
提出方法先进性原因。(6)表述
良好:论文一定要自包含,让读
者(即使外行)能够读懂文章,
一定要仔细检查,避免语法错误。
重视论文宣讲
论文宣讲为同行之间的学术
交流提供了一个重要的平台。作
者可以通过论文宣讲来向同行介
绍自己的新成果,展示新技术,
宣传自己的研究小组。国内研究
者对论文宣讲重视度不足,往往
达不到预期的效果。论文宣讲不
是简单地介绍论文的所有技术细
节,而是介绍新问题、新动机、
新方法和新技术,让听众记住自
己的工作,所以宣讲一定要有特
点。由于听众并不一定十分熟悉
作者的研究领域,因而论文宣
讲切忌介绍细枝末节,一定要
逻辑清晰,重点突出,图文并茂,
浅显易懂。推理证明等技术难
点可以留给听众会后通过阅读
论文了解。但同时也不要让人
感觉平淡,没有任何技术难度,
因此作者需要仔细考虑如何组
织自己的讲稿。
数据管理领域会议
介绍
计算机领域不同于其他领
域,计算机研究者更注重顶级会
议(主要是由于计算机领域相关
技术更新换代较快,会议论文
发表快)。数据管理的顶级会议
包括SIGMOD, VLDB和ICDE。
SIGMOD采用双匿名(投稿匿名,
审稿匿名)的方式审稿。每篇论
文分给3~4个审稿人评审,对于
有争议的论文,作者有反馈的机
会(rebuttal阶段)来回答解释审
1,数据管理国际会议;VLDB: Very Large Data Base,超大数据库;
ICDE: IEEE International Conference on Data Engineering,数据工程国际会议。
稿人提出的问题。2013年以前,SIGMOD每年征集投稿一次,投稿时间大约在11月初。为了缩短论文发表周期、提高论文质量,从2013年起,SIGMOD 采用两轮投稿。论文评审采用期刊评审方式,对评审后有争议的论文,作者需要根据审稿意见修改论文,进入二次评审。VLDB采用期刊的方式进行审稿,作者每个月都可以投稿,一个月后可以获得审稿意见(接受、拒绝、修改)。如果论文需要修改,则作者有两个月的修改时间。ICDE仍采用传统的会议审稿方式,每年7月份投稿,下一年的4月初召开会议。
数据管理的研究热点
随着大数据时代的到来,数据管理的研究热点从数据库的查询处理和优化转移到大数据计算模型和处理技术,主要的热点研究问题包括以下四点。(1)大规模数据处理、并行和分布式数据管理:针对大
规模数据处理问题,研究者们开发了很多高效的分布式平台和框架,例如HadoopDB, Spark, Shark等。在这些框架之上,很多研究者开始重新关注一些传统数据处理问题,如查询优化、近似性连接等,根据数据的特点为大规模数据处理设计新的算法,满
李国良
CCF会员。清华大学副教授。主要研究方向
为大数据管理、群体计算、城市计算等。
liguoliang@tsinghua.edu.cn
足并行处理的查询需要。(2)新服务模型、多租户数据库和众包计算:工业界的需求也在潜移默化地影响数据管理的相关研究,一些新兴的服务和计算模型正在快速兴起。比如云计算、多租户数据库,新硬件的数据库技术,众包计算等。(3)复杂数据管理:随着社交网络、语义网、知识库的发展,复杂数据管理逐渐得到数据库领域的广泛关注,例如图数据管理和社会媒体数据处理。(4)非结构化数据管理:为了处理互联网产生的海量多源异构数据,数据库研究人员提出了非结构化数据处理技术,例如数据抽取、数据清洗、数据融合等。■
致谢:感谢我的导师冯建华教授、周立柱教授以及启蒙教师李建中教授,感谢新加坡国立大学的黄铭钧教授和美国加州大学Irvine分校的李晨教授,感谢课题组所有成员以及所有合作者,没有他们的指导、支持和帮助,就没有我取得的成绩。
第五届中国数据挖掘会议(CCDM 2014,会议编号:CCF-TC-14-48N)5月23~25日在浙江金华举行。会议共收到302篇投稿,录用147篇。录用稿件将分别刊登在《软件学报》《模式识别与人工智能》《计算机科学与探索》《计算机应用》《计算机科学》《数据采集与处理》《智能系统学报》《山东大学学报(工学版)》《南京大学学报(自然科学版)》《中国科技大学学报》和《浙江师范大学学报(自然科学版)》。
全国80多所大学和科研院所的328名代表出席会议。会议邀请CCF杰出会员、华东师范大学周傲英教授,CCF会员、广西师范大学张师超教授,CCF会员、浙江大学何晓飞教授,CCF会员、美国罗格斯大学熊辉教授,CCF高级会员、北京航空航天大学王蕴红教授,CCF高级会员、西安电子科技大学高新波教授作特邀报告。他们从多个角度深入探讨了数据挖掘问题。专家们的精彩报告也得到了与会者的好评。大会还安排了17个分组报告,并选出3篇优秀学生论文。
CCF TC