邬江兴院士:数据科学和大数据试验场

   数据是网络空间的唯一存在。网络空间是由计算机网、广电网、电信网、卫星网、物联网、传感网等人造网络构成的空间,一部分数据是现实的映射,简称为“现实数据”,另一部分数据是非现实的映射,简称为“网络数据”。

    数据科学的三个方面:

    一是认识现实数据是认识宇宙、认识物质、认识生命、认识社会的基础,为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律;二是认识网络数据是认识网络游戏、网络病毒、网络武器、垃圾数据的基础,也是掌握未来竞争力的核心要素,是网络空间安全核心内容;三是认识数据界的发展和变化,研究数据在网络中的流向、流量,研究网络流量文明,研究大数据是如何产生和发展的。

    据邬院士介绍,借助计算机分析实验仪器或模拟仿真产生的大量数据,并从中发现知识和规律。他举了一个大家容易理解的例子。现在我们人人都在关注雾霾天气。我们想知道:雾霾天气是如何发生的,如何预防?首先需要在一些“代表性”位点建立气象站,来收集一些与雾霾形成有关的气象参数。根据已有的机理认识,雾霾天气的形成不仅与源头和大气化学成分有关,还与地形、风向、温度、湿度气象因素有关。仅仅这些有限的参数,就已经超过了常规监测的能力,只能进行简化人为去除一些看起来不怎么重要的,只保留一些简单的参数。那些看起来不重要的参数会不会在某些特定条件下,起到至关重要的作用?如果再考虑不同参数的空间异质性,这些气象站的空间分布合理吗,足够吗?从这一点来看,如果能够获取更全面的数据,也许才能真正做出更科学的预测,这就是第四范式的出发点,也许是最迅速和实用的解决问题的途径。

    邬院士指出,数据驱动创新是未来方向、是新的创新模式,创新需要试验,数据驱动的创新需要数据试验。那么,当数据集膨胀到用现有信息技术难以在可接受的时间内管理、处理和分析时,怎么办?因此,在可接受的时间内如何获得期望结果是核心技术问题。

    当前,信息技术的泛在化应用导致数据资源的爆炸式增长,反过来信息技术在利用爆炸式增长的数据资源时将面临大数据传输、管理、计算和分析等方面的严峻挑战,信息技术的每一次新突破又会进一步加剧数据资源的增长速度,两者间具有迭代式的发展特点。为有效开发利用大数据资源,必须不断发展与之相适应的信息处理技术,大数据试验场就是为创新信息处理技术而提供的开发与试验平台。这对大数据应用乃至整个信息领域的学术、技术、产业的发展具有重大的基础性作用,能够成为连接政府、企业、资本、技术、数据资源的桥梁和纽带。在上海率先建设大数据试验场具有全球引领意义。

    通过运营数据推动谷歌产品创新迭代,实现大数据技术发展。Google公司提倡让员工有20%的时间利用公司的丰富的数据和计算资源,做自己想做的事情,创新出AdSense等Google核心技术。现在Google公司成立Xlab,推动具有前瞻性的创新应用,包括无人驾驶、太空天梯等,这些均需要借助于Google公司内部的大型数据与计算平台。但这些资源无法与其他企业和社会组织共享利用。

    据介绍,当前我国有实力也更有机会举多方之力建成国际领先的大数据试验场,并提出了愿意与建设规划。


专家观点

邬江兴院士:数据科学和大数据试验场

数据是网络空间的唯一存在。网络空间是由计算机网、广电网、电信网、卫星网、物联网、传感网等人造网络构成的空间,一部分数据是现实的映射,简称为“现实数据”,另一部分数据是非现实的映射,简称为“网络数据”。