引言
近年来,大数据迅速发展成为工业界、学术界甚至世界各国高度关注的热点。《自然(Nature)》和《科学(Science)》等杂志相继出版专刊来探讨大数据带来的挑战和机遇。著名管理咨询公司麦肯锡声称,“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费者盈余浪潮的到来”。在这样的背景下,美国2012年宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国认为大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。大数据已成为社会各界关注的新焦点,“大数据时代”已然来临。
与传统规模的数据工程相比,大数据的感知、获取、存储、表示、处理和服务都面临着巨大的挑战。这归因于大数据具有几个突出的特征:1)数据集合的规模不断扩大,已经从GB、TB再到PB,甚至已经开始以EB和ZB来计数。IDC的研究报告称,未来十年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍以便适应这一增长。2)大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例达到整个数据量的75%以上。3)产生速度快,处理能力要求高。根据IDC的“数字宇宙(Digital Universe)”报告,预计到2020年,全球数据使用量将达到35.2ZB,在如此海量的数据面前,处理数据的效率就是企业的生命。大数据往往以数据流的形式动态、快速地产生和演变,具有很强的时效性,只有把握好对数据流的掌控才能有效利用这些数据。4)数据真伪难辨,可靠性要求更严格。大数据的集合和高密度的测量将令“错误发现”的风险增长。斯坦福大学的统计学教授Trevor Hastie称,如果想要在庞大的数据“干草垛”中找到一根有意义的“针”,那么所将面临的问题就是“许多稻草看起来就像是针一样”。5)数据价值大,但密度低、挖掘难度大。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提取”成为目前大数据背景下亟待解决的难题。
大数据在带来挑战的同时,还蕴含着划时代的重大意义。特别是大数据时代对海量数据的积累、加工和利用能力将成为国力的新标志,大数据的深度分析和利用将对推动经济持续增长、提升国家的竞争力起到重要的作用。一个国家的数据主权将是继海、陆、空、天四个空间之后另一个大国博弈的空间。“”报告中明确提出网络空间与深海、深空是我们国家核心利益的关
靳小龙 王元卓 程学旗
中国科学院计算技术研究所 北京 100190
摘 要阐述大数据在基础理论与关键技术两个层面的重要研究问题,包括大数据复杂性的解析、大数据计算模型、多源异构大数据的融合与表示、大数据建模与理解等,并针对问题逐一简要介绍了相应的研究现状。
关键词 大数据;数据复杂性;内容建模;语义理解
基金项目:国家973项目课题(2012CB316303、2013CB329602);
国家自然科学基金重点项目(61232010);国家自然科学基金面上项目
(61173008);国家自然科学基金青年项目(61100175)键领域。在大数据领域的落后,意味着产业战略制高点失守,更意味着将在数据空间出现漏洞。美国启动“大数据研究和发展计划”不仅是一个推动美国在高技术领域继续领先的战略计划,更是一个保护美国、推动社会经济发展的计划。以美国为代表的西方国家正在通过增强大数据领域竞争能力进一步提高自己的综合国力。可以预见未来国家之间的经济与政治竞争将是大数据引领的竞争。
1 大数据的研究体系
为了解决大数据带来的系列挑战,需要从基础理论与关键技术两个层面展开具体研究。在基础理论层面,需要对大数据的复杂性进行研究,并提出适合于大数据的新型计算模型;在关键技术层面,则需要研究多源异构大数据感知、融合与表示,大数据内容建模与语义理解,以及感知、存储与计算融合的大数据计算系统架构体系。
1.1 大数据复杂性的解析及大数据计算模型
大数据规模庞大、类型多样、关联复杂的特点导致传统全量数据计算模式不再适用,大数据计算面临基本模式的挑战。如何对大数据的复杂性深入解析,并在此基础上构建高效的大数据计算模型,成为大数据处理的核心问题。
1) 大数据复杂性规律发现。对大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,简化大数据的表征,获取更好的知识抽象,指导大数据计算模型和算法的设计。具体则需要研究针对大数据的新型统计分析技术,解决传统统计与实证分析技术在处理极大规模网络数据时的可扩展性。同时对大数据中多模态关联的数据对象之间、异构、隐性的关联关系进行研究,基于统计猜想和大数据驱动相结合的方式,探索大数据复杂模式的生成机理及其背后的物理意义。最后,分析大数据在时空维度上的数据分布、内在结构和协作关联的复杂性规律,形成对大数据采样降维、抽象表达和优化计算的方。
2) 大数据复杂特征度量。大数据导致了时空维度上计算复杂度的激增,传统全量数据计算模式在面对大数据时基本不可行,亟需建立面向大数据计算的数据复杂度理论,探索不依赖于样本规模的大数据高效计算模型和方法。为此目的,需要研究异构关联的大数据中复杂特征的基本因素,分析这些因素的内在联系、外在指标和度量方法。进而研究面向计算的数据复杂性度量模型,定性和定量地衡量大数据的复杂程度,理清数据复杂度和计算复杂度的理论联系。此外,还需研究基于数据复杂度的近似计算理论和优化算法框架,以此指导人们寻找面向计算的数据内核或者数据边界的基本方法,形成大数据高效计算模型和方法设计的理论基石。
3) 大数据的计算模型。由于大数据往往呈现出异构多模态、复杂关联、动态涌现等特点,传统的科学假设以及模型理论已经无法有效分析和预测大数据内在的规律及其蕴含的真实价值。因此,需要重新定义和度量数据的可计算性,发展以数据为中心的大数据的计算理论,设计可靠的计算算法。具体而言,需要研究面对大数据的非确定性算法理论,突破传统统计学习中的“同分布”假设,研究非确定化、局部增量的学习理论,提出不依赖于全量数据的新型算法理论基础;研究大数据下以数据为中心的计算模式,突破传统的“数据围绕机器”式计算,构建“以数据为中心”的推送式计算模式,探索弱CAP约束的系统架构模型及其代数计算理论,研究分布化、流式计算算法,形成通讯、存储、计算融合优化的大数据计算框架。
1.2 多源异构大数据的感知、融合与表示
大数据应用关键的第一步是感知和融合数据并对其进行有效的表示。传统数据管理技术擅长处理结构统一、语义清楚、质量可靠的结构化数据,而大数据多源异构、良莠不齐、动态变化的特点使得感知、获取高质量数据并对其进行融合表示是一个非常具有挑战性的课题。因此,需要在核心方法与技术层面围绕大数据的可计算性和新型计算范式这一核心问题,在多源异构大数据的感知和获取、大数据的融合与质量控制以及大数据的图与张量表示等方面展开研究,以建立大数据准确高效的感知、融合与表示方法。
1) 多源异构大数据的感知和获取。由于大数据的无边界分布和自组织特性,高质量数据的感知和获取是大数据处理非常重要的第一步。然而传统的基于爬虫(crawler)的通用数据感知和获取技术在应对规模更大、数据类型更为复杂、更新速度更快的大数据上越来越力不从心。同时,传统信息抽取技术主要被用于小规模的文本数据处理,无法应对大数据的动态变化和多源异构所带来的挑战。因此,我们需要研究多源异构大数据的精确感知和高效获取算法,突破已有的针对小规模和静态数据设计的爬虫架构和算法,建立实时智能收集主题相关的大数据的感知和获取框架。同时,还要研究兼顾精度和性能的大数据获取算法,分析数据获取算法的精度、稳定性与数据规模的关系,实现对非结构化异构数据的高效结构化方法,克服传统复杂抽取模型在处理大规模数据时的低性能瓶颈。
2) 大数据的融合与质量控制。大数据的生命力很大程度上来自于它的开放性。而这种开放性的一个负面效果就是造成大数据质量的良莠不齐,很多数据包含了大量的噪音、冗余和错误。“大而低质量”的数据往往不能有效支撑大数据分析和应用。简单地认为数据越多越好而不关心数据的质量会使得分析的结果变得难以预料。另一方面,属于同一个实体或概念的数据往往在多个数据源中以不同的形式表示,数据集成和融合技术被用于将这些不同形式的数据进行统一和集成。传统的数据融合和质量控制技术主要针对规模较小且语义清楚的结构化数据,而面向大数据的数据融合和质量控制仍然是一个需要深入研究的问题。具体而言,需要在现有的数据集成与融合技术的基础上,结合大数据的异构性、冗余性和相关性等特性,研究大数据的数据融合和集成方法,以有效地解决大数据获取的全面性和一致性问题。另外,还需与众包(Crowdsourcing)、概率推理等技术结合,研究大数据的质量判定方法和去噪、去冗、清洗等质量控制方法,从而得到“大而高质量”的大数据。
3) 大数据的图与张量表示。大数据中的数据实体之间不是彼此的,往往具有一些错综复杂的关联关系。这类复杂的关联关系通常能以图结构和张量的形式来表示。一方面,如何对复杂的图结构数据进行在线分析处理,成为近年来学术界和工业界广泛关注的一个关键问题。如何为大规模的图结构生成小规模且可以理解的概要信息,如何对关联关系进行压缩以便于图数据的存储和维护,都是非常重要的研究课题。因此,需要针对图数据的大规模异构动态特征,深入研究基于图数据的模型表示以及基于图数据的联机分析处理技术。另一方面,同样十分重要的是针对大数据的突出特点,充分利用张量的强大表达能力,研究大数据的一体化张量表达原理,建立从原始多源、高维数据集中选择最合适的张量表达数据模型,进而研究大数据所蕴含的各类异质特征如何在高阶张量形式下得到统一表达。
1.3 大数据的内容建模与语义理解
传统的基于静态、浅层特征对数据建模的方法,已经无法适应当前越来越多的对数据内容深层理解和计算应用的需求。大数据的出现提供了对数据内容深层建模和语义理解的契机,然而大数据的种种特性又对其内容建模和语义理解的深度、关联性与准确性提出了挑战。因此,需要在核心方法与技术层面结合大数据的特征就大数据的特征模型、内容建模和语义理解三个方面展开研究,实现对大数据的内容理解及演变规律的把握。
1) 带时序的特征层次模型。针对大数据复杂、动态和隐蔽等基本特性,我们需要研究大数据的特征层次模型。具体而言,需要在范式理论的基础上,研究特征的表达范式,从特征的表达性、排他性和相似性的角度定义特征的描述规范,给出低级范式向高级范式转换的方法。同时,在特征范式的规约下,从特征结构及其索引结构两方面研究特征结构模型,以解决大数据环境下特征的组织与管理问题。进一步研究特征结构模型上的语义操作问题,通过扩展本体代数的逻辑运算、集合运算,定义特征语义获取、特征语义更新和特征语义查询算子,探索大数据语义计算的新型范式。
2) 大数据特征感知与内容建模。大数据的规模与多源异构特性使得对其内容,特别是多媒体内容特征的识别成为一项十分具有挑战性的问题。因此需要探索有别于传统方法的新的解决思路,需要研究基于大数据特征的内容建模技术,以便及时准确地感知大数据的特征。具体而言,需要研究张量空间下的基于深度学习的特征提取方法,获取数据的深层语义特征;研究基于大数据的属性学习理论和方法,以及面向多源异构大数据的跨域多任务学习;最后,研究基于数据驱动的大数据内容分析与建模。
3) 基于知识图谱的大数据特征语义理解。大数据环境下的语义理解是基于语义的新型计算范式的核心,因此,我们需要基于知识图谱展开对大数据特征语义理解的研究。具体来说,需要研究面向知识图谱的领域知识迭代式获取方法,实现对特定领域中特定主题及其情境的抽取;研究基于本体和大众分类的语义标注、链接本体的协作关联推理和语义浮现技术,结合社交网络探索新型的数据链接方法,促进人-人、人-机、机-机对大数据的语义增强型内容的理解;研究面向异构大数据之间协作关联关系的内容语义互操作管理方法,解决大数据环境下内容语义如何计算的问题。
1.4 感知、存储与计算融合的大数据计算系统架构体系
大数据对相应的计算系统提出了高性能、可扩展、高可靠和低能耗等要求。为此,需要结合大数据的价值稀疏性和访问弱局部性的特点,以“大数据感知、存储与计算融合”为指导思想,研究针对能效优化的大数据分布存储和处理的系统架构。在性能评价体系、分布式系统架构、流式数据计算框架、在线数据处理方法等方面展开基础性研究,并对作为重要验证工具的基准测试程序及系统性能预测方法进行研究,通过设计、实现与验证的迭代完善,最终实现大数据计算系统的数据获取高吞吐、数据存储低能耗和数据计算高效率。
1) 大数据计算基准测试程序及性能预测方法。与高性能计算不同,大数据计算的性能不仅与计算算法密切相关,而且与数据规模、数据分布和用户访问行为密切相关。当前,以数据为中心的新型计算系统缺乏有效的效能评价模型和基准测试方法,这是制约大数据处理系统体系架构优化和统一评价的主要因素。为了解决这个问题,需要研究大数据计算基准测试程序的构造方法,探索应用负载的特征表达及状态约简方法,并从数据规模、数据分布、用户行为和程序算法等多个角度建立代表性大数据计算基准测试程序集合。进一步要分析大数据计算系统多个部件之间在缓存、副本、一致性策略等方面的相互影响,建立各种复杂条件下大数据计算系统运行时的性能行为模型,提出以小规模情况下的性能行为预测真实大系统环境性能的性能推演方法。最终,建立考虑数据质量、服务质量和运维成本等多方面因素的综合评价体系,为大数据处理系统的体系结构、系统软件和应用软件的研究提供依据。
2) 感知、存储与计算融合的分布式系统架构。传统的海量数据处理系统没有将数据的感知获取、存储和计算融为一体,难以同时实现数据的快速获取和高效处理,而这对大数据处理来说是至关重要的。为此需要研究存储与处理耦合的大数据计算分布式系统架构,实现处理单元和存储单元耦合部署的协同工作模式;研究利用专用硬件设备与大数据处理系统的层接方法和实现技术,解决专用硬件与通用软件的对接问题;研究软硬件协同的数据和计算双向流动理论,克服单一数据流动造成的网络延迟高和单一计算流动难以避免的负载不均衡的困难;分析大数据计算范畴的线性或非线性的流式、实时或离线等典型数据密集型的负载特征,以及包括通用处理器在内的多种硬件对不同特征负载的计算效能,研究充分利用专用硬件分流通用处理器负载的方法和技术,并提出感知、存储与计算融合的大数据分布策略与约简方法,实现大数据规模效应下的数据可靠存储和计算持续容错。
2 国内外研究现状
当前对大数据的研究大致也可以分为专注于研究大数据的复杂性和计算模型的基础理论,以及着眼于大数据的感知与表示、内容建模与语义理解,和大数据计算架构体系的关键技术这样两个层面。下面简要介绍相应的研究现状。
2.1 大数据的复杂性和计算模型
针对大数据的复杂性,前期的研究主要是对网络上多种来源的数据进行性质分析和规律探索,很多学者尝试运用图论和统计分析等方法对数据进行定量分析。特别值得注意的是,人们已经发现了复杂的网络大数据之中存在一些统计规律性。譬如,Barabási等人通过对大量电子邮件数据的分析,证明人类行为中的通信、娱乐和工作模式并不遵循泊松过程,而是基于决策排队过程的结果,即由于存在优先次序导致任务执行时间具有重尾效应[1]。Kleinberg等人通过分散方法等随机图算法发现大规模社会网络的小世界网络规律,利用理论模型解释了六度分割等现象[2]。面对大数据的复杂性,还有一些学者尝试使用统计方法和复杂网络方法来研究如何对大数据进行按需约简。相关数据约简的方法多数集中在对样本属性的约简上,其目的是在保持分类能力不变的情况下,删除其中不重要的和冗余的属性,同时提取出重要的属性信息。例如,Cervantes等人使用最小封闭球聚类,提出基于支持向量机的数据约简方法[3]。但这类基于统计的方法在处理大数据时其时效性难以保证。
针对大数据的计算理论和算法的研究目前主要集中在大数据机器学习的基础理论、参数估计方法、优化算法等方面,形成的一系列成果为大数据高效计算提供了理论支持。普林斯顿大学的Blei等人针对大规模网络文本数据的主题建模,提出了在线学习算法,为大数据下非参数模型的高效估计奠定基础[4]。斯坦福大学的Mahoney提出了随机算法实现快速矩阵近似分解,并给出了近似值和真实值差距的理论边界[5]。法鲁托斯等人提出了大规模张量分析方法,可以比原算法速度提高两个数量级[6]。美国加州大学伯克利分校Jordan等人开展了大数据分析的理论基础研究,目前已有的成果包括分布式优化算法[7]和大数据非参数估计方法[8]等。2.2 大数据的感知与表示
爬虫是当前大数据感知和获取的基本技术,已得到迅速发展和广泛应用,但仍不能有效应对被称为Web 2.0的新一代互联网数据[9]。为了有效利用网络大数据,需要将异构、低质量的网络数据转化为结构统一的高质量数据,因此业界提出了一系列数据抽取算法以应对大数据的异构性[10-11],应用经过扩展的传统数据集成技术从多个异构数据源集成数据[12],并开始将过去一些数据清洗和数据质量控制方面的研究应用于网络数据质量控制[13-14]。但总的来说,将这些技术直接用于大数据处理,在数据处理的规模和得到的数据质量方面还不能令人满意。另一方面,人们很早就认识到了动态性和时效性是大数据的重要特性[12],数据流(data stream)[15-16]和时间序列(time series)[17]是表示和处理数据动态性和时效性的主要技术。同样,从数据的可处理规模和功能上,传统数据流和时间序列技术还无法满足大数据处理的需求。
对大数据的表示主要有图模型与张量两大类方法。譬如,Boldi等研究了图的压缩方法[18],但是只关注了如何有效地存储网页的链接信息来对Web图进行压缩,以方便网页排序(Page-Rank)和权威向量的计算,并没有涉及图的结构问题。除了图之外,张量是另一个广泛关注的大数据表示方案。由于没有破坏数据的领域、局部和全局结构,与向量比较,数据的张量形式表达能最大限度地保持原始数据的固有信息。Vasilescu等人用张量形式成功地表达了光照、视角、类别等几个模态的人脸数据库[19]。自此,张量表示在图像、视频、文档等领域中得到了深入研究。Hinton等性地提出了通过深度信念网(Deep Belief Networks,DBNs)的非监督贪心逐层训练的深度学习(Deep Learning)算法,使得研究在统一的平台上进行特征提取的方法变为可能[20]。Acar 等认为,高维大数据可以用张量来表达,而基于张量计算的方法可以从高维大数据中提取有用信息[21]。Phan 等提出用张量表示图像、纹理、音乐谱的方法[22]。针对大数据下的张量数据,2013年Sidiropoulos提出了基于压缩感知的核张量计算方法[23]。
2.3 大数据的内容建模与语义理解
由于大数据的规模巨大、高维、异构、多源等特性,当前在大数据内容建模方面的工作主要集中在数据的实体、类别和属性的提取与分析等方面。在大数据中实体的属性学习方面,Russakovsky等提出了利用ImageNet进行属性学习的方法[24]。Parikh等进一步提出了相对属性的学习方法[25]。2012年,斯坦福大学和谷歌的研究人员构建了一个多达10亿个连接的深度学习网络。该网络通过对来自的1 000万幅视频帧的自主学习,学会了识别猫的面孔[26]。他们还对2.2万个类别进行了图像分类,准确率达到了15.8%,比当前最先进的方法提高了70%。而传统的方法需要通过对图像加标签、提取特征、训练分类器等步骤才能够实现对概念的识别。针对大数据内容理解的另一个重要进展是基于数据驱动(Data-Driven)方法的提出。2008年,Torralba等人利用网络中的图像构建了一个包含八千万幅图像的数据,并利用该数据库完成了基于搜索和词汇树相结合的图像中物体、人物、位置等信息的理解[27];Wang等人构建了一个包含20亿幅图像的数据库,利用该数据库实现了一种基于近似图像搜索的图像标注方法[28]。总体而言,目前针对大数据内容建模的研究主要针对大数据的某一特性展开,全面考虑大数据关键特征的研究工作还很少。
在语义理解方面,语义网作为语义的核心载体,已经得到了实际应用,利用语义网研究语义理解,也开始得到学术界的关注。Christian等人提出了利用关联开放数据(Linked Open Data,LOD)的思想在Web上不同数据源之间创建语义关联[29],促进异构数据源之间的互操作;武汉大学何克清等人提出元模型与本体相融合的建模体系[30],通过本体到元模型、模型、元数据的语义标注,在元级上屏蔽模型的差异性,以及实现语义网上异构信息模型间的语义互操作,达到无歧义语义理解。由于大众的广泛参与,群体智能(Collective Intelligence)被视为是一种从人类大规模交互中所涌现出来的社区知识库(如维基百科,Wikipedia)[31],基于此提出的交互式通信模式更便于网络内容的理解与共享,从而解决一些图灵机智能难以解决的语义理解问题。因此,可以通过众包的方式,借助群体智能,来分析和理解互联网上的各种信息。
2.4 大数据的存储与架构体系
大数据的架构体系研究首先需要关注的问题就是大数据如何存储。在数据存储的基础上,为了应对大数据的快速以及高效可靠处理,需要建立大数据计算的编程模式以及相关的优化方法。大数据存储的形式包括分布式的文件系统、分布式的键值对存储以及分布式数据库存储。当前的研究也集中在这三个方面,并依据应用的需求进行相关的优化。在分布式文件系统研究方面,传统的分布式文件系统NFS应用最为广泛[32]。为了应对搜索引擎数据,谷歌在2003年公布了其能够用于存储网页数据的分布式文件系统技术GFS[33]。开源社区据此开发了适合部署在廉价机器上的Hadoop分布式文件系统HDFS[34]。微软自行开发的Cosmos[35]支撑着其搜索、广告等业务。2010年推出了专门针对海量小文件的文件系统Haystack[36],以降低对磁盘寻道速度的要求,类似的还有淘宝推出的文件系统TFS[37]。键值对存储也是一大类重要的存储系统。2007年亚马逊(Amazon)提出的Dynamo以键值为模式,是一个真正意义上的去中心化的完全分布式存储系统,具有高可靠性、高可用性且具有良好的容错机制[38]。由于模型的简单性,键值对存储在应用模型不是很复杂的情况下能够获得更好的性能。当然,数据库模型还是一大类非常重要的存储模型。Bigtable是谷歌开发的基于GFS和Chubby的非关系数据库,是一个稀疏的、分布式的、持久化存储的度排序映射表[39]。为克服其缺乏一致性支持的缺点,2011年谷歌将其改进为Megastore系统[40],但是改进后的系统性能不是很高。2012年谷歌进一步开发了Spanner系统,能够进一步加强一致性,将数据分布到了全球的规模,性能有了一定提高[41]。Spanner是第一个可以实现全球规模扩展并且支持外部
研究与开发
Research & Development 41
一致事务的数据库。3 结束语
近几年,大数据迅速地发展成为各行各业共同面对的问题。与传统规模的数据工程相比,大数据具有规模大、类型多、速度快、可靠性低、价值密度低等显著特征。这些特性造成了大数据在感知、获取、存储、表示、理解、处理和分析等方面一系列的巨大挑战。要解决这些挑战,最根本的是要深入解析大数据的上述特性所引起的复杂性,进而提出适应这些特性的大数据系统体系架构与计算模型。同时,从应用层面而言,对多源异构大数据的融合表示、内容建模与语义理解将是几项亟需解决的关键技术。
参考文献
[1] Barabási A L.The origin of bursts and heavy tails in
humans dynamics[J].Nature,2005,435:207-11
[2] Kleinberg J.Complex Networks and Decentralized
Search Algorithms[C]//Proceedings of the International Congress of Mathematicians(ICM),2006
[3] Cervantes J,Li X,Yu W,et al.Support vector machine
classi fi cation for large data sets via minimum enclosing ball clustering[J].Neurocomputing,2008,71(4-6):611-619[4] Wang Chong,John William Paisley,David M Blei.Online
Variational Inference for the Hierarchical Dirichlet Process[J].Journal of Machine Learning Research- Proceedings Track(JMLR),2011,15:752-760
[5] Mahoney M W.Randomized Algorithms for Matrices and
Data,Foundations and Trends in Machine Learning[M].NOW Publishers,2011,Volume3,Issue2
[6] Kang U,Evangelos P,Abhay H,et al.GigaTensor:
scaling tensor analysis up by 100 times-algorithms and discoveries[C].KDD 2012:316-324
[7] Boyd S,Parikh N,Chu E,et al.Distributed Optimization and
Statistical Learning via the Alternating Direction Method of Multipliers[M]//Foundations and Trends in Machine Learning.now publishers Inc,2011,3(1):1-122
[8] Kleiner A,Talwalkar A,Sarkar P,et al.The Big Data
Bootstrap[C].ICML 2012,Edinburgh,UK
[9] Cho J,Garcia-Molina Hector,Page Lawrence. Efficient
crawling through url ordering[C].WWW 1998,April14-18,Brisbane,Australia
[10] Crescenzi Valter,Mecca Giansalvatore,Merialdo Paolo.
RoadRunner:Towards Automatic Data Extraction from Large Web Sites[C].VLDB 2001:109-118
[11] Zhu Jun,Nie Zaiqing,Wen Ji-Rong,et al.Simultaneous
record detection and attribute labeling in web data extraction[C].KDD 2006:494-503
[12] Fetterly Dennis,Manasse Mark,Najork Marc,et al.A
large-scale study of the evolution of Web pages[J].Software:Practice and Experience,Special Issue: Web Technologies,2004,34(2):213-237
[13] Pipino Leo L,Lee Yang W,Wang Richard Y.Data
quality assessment[J].Communications of the ACM,2002,45(4):211-218
[14] Erhard Rahm,Hong Hai Do.Data Cleaning:Problems
and Current Approaches[J].IEEE Data Engineering Bulletin,2000,23(4):3-13
[15] M o t w a n i R ,W i d o m J ,A r a s u A ,e t a l.Q u e r y
Processing,Resource Management,and Approximation in a Data Stream Management System[R].CIDR 2003[16] Chen Yixin,Dong Guozhu,Han Jiawei,et al.Multi-dimensional regression analysis of time-series data streams[C]//VLDB 2002:323-334
[17] James D Hamilton.Time Series Analysis[M].Princeton
University Press,1994
[18] Boldi P,Vigna S.The WebGraph framework I:
Compression techniques[C]//WWW,595-602
[19] Vasilescu M Alex O,Terzopoulos Demetri.Multilinear
subspace analysis of image ensembles[C]//IEEE International Conference on Computer Vision and Pattern Recognition,2003
[20] Hinton G E,Osindero S,Teh Y W.A fast learning
algorithm for deep belief nets[J].Neural computation, 2006,18(7):1527–1554
[21] Acar E,Harrison R,Loan C.Future Directions in
Tensor-Based Computation and Modeling,NSF
研究与开发 Research & Development
42
Workshop,May,2009
[22] Phan Anh Huy,Cichocki Andrzej,Tichavsky Petr,et al.On
Revealing Replicating Structures In Multiway Data:A Novel Tensor Decomposition Approach[J].Lecture Notes in Computer Science,2012,7191:297-305
[23] Sidiropoulos Nikos.Big Tensor Data,Compressed
Sensing,and Preference Measurement,Scientific and Statistical Computing Seminar,2013
[24] Olga Russakovsky,Li Fei-Fei.Attribute learning in large-scale datasets[C]//Proc. ECCV,2010
[25] Parikh and Kristen Grauman.Relative attributes[C]//
Proc.ICCV,2011
[26] Le Q,Ranzato M,Monga R,et al.Building High-level
Features Using Large Scale Unsupervised Learning [C]//Proceedings of 29th International Conference on Machine Learning,2012:81-88
[27] Torralba A,Fergus R,Freeman T.80 million tiny images:
a large dataset for non-parametric object and scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1958-1970[28] Wang XinJing,Zhang Lei,Ma WeiYing.Duplicate-Search-Based Image Annotation Using Web-Scale Data[J].Proceedings of the IEEE,2012,100(9):2705-2721[29] Bizer C,Tom H,Tim B-L.Linked Data —The Story So
Far[J].International Journal on Semantic Web and Information Systems,2009,5(3):1-22
[30] 何克清,何扬帆,王,等.本体元建模理论与方法及其应用
[M].北京:科学出版社,2008
[31] Schneider J.Building a standpoints web to support
decision-making in Wikipedia[C]//Proceedings o f t h e A C M 2012 c o n f e r e n c e o n C o m p u t e r Supported Cooperative Work Companion,New
York:ACM,2012:335-338
[32] Shepler S,Callaghan B,Robinson D,et al.NFSv4.
Request for Comments,2003,3530
[33] Ghemawat Sanjay,Gobioff Howard,Leung Shun-Tak.The
Google File System,19th ACM Symposium on Operating Systems Principles[M].Lake George,NY , October,2003[34] HDFS Architecture Guide[EB/OL].[2013-10-10].http://
hadoop.apache.org/docs/ r1.0.4/hdfs_design.html [35] Chaiken Ronnie,Jenkins Bob,Larson Per-AKe,et
al. SCOPE:easy and efficient parallel processing of massive data sets[J].PVLDB,2008,1(2):1265-1276[36] Beaver Doug,Kumar Sanjeev,Li Harry C,et al.Finding
a Needle in Haystack: 's Photo Storage[C] //Proc of OSDI 2010.CA:USENIX Association Berkeley,2010:47-60
[37] TaoCode[EB/OL].[2013-10-20].http://code.taobao.org/p/
tfs/wiki/index/
[38] DeCandia Giuseppe,Hastorun Deniz,Jampani Madan,et
al.Dynamo:amazon's highly available key-value store[C] //Proc of SOSP 2007.New York:ACM,2007:205-220[39] Chang Fay,Dean Jeffrey,Ghemawat Sanjay,et
al.Bigtable: A Distributed Storage System for Structured Data[C]//OSDI'06:Seventh Symposium on Operating System Design and Implementation,Seattle,WA,Novem ber,2006
[40] Baker Jason,Bond Chris,Corbett James,et al.
Megastore:Providing Scalable,Highly Available Storage for Interactive Services[C]//Proc of CIDR 2011:223-234[41] Corbett James C,Dean Jeffrey,Epstein Michael,et al.
Spanner:Google's Globally-Distributed Database[C] //Proc of OSDI 2012.CA:USENIX Association Berkeley,2012
靳小龙
中国科学院网络数据科学与技术重点
实验室副研究员、博士、博士生导师,主要研究领域为社会计算、网络性能建模与分析、多智能体系统等。
王元卓
中国科学院网络数据科学与技术重点实验室副研究员、博士,主要研究领域为社会计算、网络行为分析、信息安全等。
作者简历
研究与开发
Research & Development 43
程学旗
中国科学院网络数据科学与技术重点实验室主任
、研究员、博士、博士生导师,主要研究领域为网络科学、网络与信息安全以及互联网搜索与服务等。
Research System and Status of Big Data
Jin Xiaolong Wang Yuanzhuo Cheng Xueqi
Abstract This paper presents the research system and describes the important research issues of big data from the fundamental theory and key techniques layers, including complexity analysis of big data, computational models for big data, fusion and representation of multi-sourced heterogeneous data, content modeling and semantic understanding of big data, etc. It further makes a brief introduction to the research status of these issues.Keywords Big Data; Data Complexity; Content Modelling; Semantic Understanding
Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
作者简历
The Four Directions of Big Data Application in Telecom Industry
Huang Xiaogang
Abstract This paper analyzes the key superiority and present situation of big data application in telecom industry of china, indicates that big data application is the new stage of digital operating, and introduces the thinking and method of the four directions of big data application: data traffic management, intelligent service, personalized service and external data service.
Keywords Big Data; Big Data Application; Digital Operating; Telecom Operators
Beijing Office of Hua Data Technology Co., Ltd., Beijing 100005, China
黄小刚
管理学硕士,华院数据技术(上海)有限公司解决方案经理。长期致力于电信行业数据挖掘应用咨询,在精确营销、客户体验管理、数据业务深度运营、电子渠道运营、客户服务管理、流量经营、经分系统规划等领域经验丰富。
(上接28页)
商应积极加强技术和人才储备,有序开展大数据关键技术的研究与验证,同时要找准大数据应用的切入点,创新数据化运营的商业模式,尽快推动大数据技术应用试验,为大规模应用、推广奠定基础。
参考文献
[1] James Manyika, Michael Chui, Brad Brown, et al.Big
data: The next frontier for innovation, competition, and productivity[EB/OL].(2011-05)[2013-10-16].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
[2] 全球48%的运营商正在实施大数据业务[EB/OL].(2013-
08-28)[2013-10-16].http://www.d1net.com/carrier/news/233172.html