当前位置:主页 > 综合体育 > 棋牌 >

nba直播视频直播:深度好文!!大数据时代的“地理画来源

2017-05-19 15:28 来源:未知 责任编辑:admin


 nba直播视频直播:深度好文!!大数据时代的“地理画来源
大数据时代,打破 “藩篱”的好机会
如火如荼的大数据时代,上至国家决策层和巨型IT企业,下至创业公司和转型中的传统企业,无不热衷谈大数据。尤其当大数据融入“机器学习”和“人工智能”庞大体系以后,大数据命题已经上升到了改变人类命运的高度。
时间和空间是人类的先验认知,人类认知世界的基本框架,时空要素也是所有数据的共同特征,时空维度的分析,在任何领域的大数据应用中都不可或缺。
  空间信息遇上大数据
大数据时代,空间信息应用将发生巨大的变化。
根本的变化在于数据源,传感器将成为主要的数据来源:遥感卫星很快会实现“准实时”的对地观测,数以万计的无人机时刻不停的获取数据,移动通讯中每个人都在实时产生位置信息,物联网的发展将带来更大量级的数据内容;
从空间大数据的应用范围看,空间信息将应用在几乎所用领域,没有时空信息的数据将是“死数据”;
从空间大数据的应用模式来看,应用目标将从事务性工作支持转变为决策分析,将从单一数据源应用转变为多数据源融合分析并迅速得出结论。
测绘地信人的焦虑
身处此时代的地理信息领域从业者,均表现出不同程度的焦虑,一方面由互联网公司主导的空间大数据应用(如:实时交通、热力图),与传统的测绘地信几无交集,想借鉴都无从下手;另一方面,应用大数据的社会呼声和行政要求,给传统的技术体系和工作模式带来巨大的挑战和压力。
一时间,各种大数据应用案例和解决方案喷涌而出,国测地信局的“时空信息云平台”升级为“智慧城市时空大数据与云平台建设”,林业、国土、农业等行业也出台了大数据应用实施规划,角度各不相同,能否拼合成“时空大数据”的完整面目尚不得知。
近期,笔者参加了地理信息产业协会空间大数据技术与应用工作委员会组织的“2017年空间大数据应用与实践研讨会”,十几个报告精彩纷呈,会后和主持人有过简短的交流,我们都认为:所谓空间大数据还处于初级阶段,甚至是萌芽阶段,距离广泛且深入地发挥作用,还有很长的距离。
打破藩篱的机会
传统的测绘地理信息领域,向来以“专业”著称,局外人难以窥探其中端倪,但“封闭”也同样成为众矢之的,这种封闭不仅是心态上,也是技术上的。10几年前,谷歌地球带来过一次强大的冲击和推动,地理信息服务得以面目全新,而大数据时代数据如潮水般涌来,也许是彻底打破地理信息“藩篱”的一次好机会。地信人常说:“80%的信息都是地理信息”,“地理信息无处不在”,当潮水般的数据袭来时,当各行各业都需要时空信息的支撑时,我们是否有足够的能力去应对?
什么是时空大数据

既然都是“盲人摸象”,我们索性作为“盲人”之一,从自己的角度解读一下“时空大数据”。
  用户画像与地理画像
大数据实践的起源,恐怕要追溯到谷歌、亚马逊、阿里巴巴等IT巨头的业务运行,由于其互联网服务面向数以亿计的用户,同时收集了大量的用户信息,通过大数据分析,制定更好的营销策略,例如精准推送、行为预测等,甚至大数据分析本身就是业务的核心,例如谷歌的广告模式;阿里巴巴也认为“DT时代”即将取代“IT”时代。在此过程中,IT巨头形成了一系列的大数据技术和方法,包括云计算、分布式存储和NoSQL数据库等,在大数据应用中普遍采用的Hadoop、Spark、Hbase等开源软件,或多或少的与IT巨头的大数据技术研发相关。

商业大数据中的“用户画像”
商业大数据无疑是目前应用最广和最成熟的领域,其核心应用模式为“用户画像”,即收集一个用户在线上和线下的所有行为,包括消费记录、行动轨迹、上网记录等通过大数据分析,根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型,并以此来开展和提升业务。由此可见,构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。贴标签的目的是让人能够理解并且方便计算机处理,而贴标签的方法,是将数据内容分段化,比如,年龄分为“18岁以下,30-40岁,40-55岁”几个分段,每个人的具体年龄对于大数据分析来讲并不重要。
  地理画像与时空大数据
如果我们借鉴商业大数据中“用户画像”的一般方法,将其引入到时空大数据当中,可以称之为“地理画像”。如果说“用户画像”使用一系列的商业标签来描述一个人,目标是制定营销策略,那么“地理画像”就是用一系列的标签来描述一个地理区域。区域范围可能是一个小区、一座城市,也可以是一片草原、一块农田,甚至是一个地质板块;应用目标可以是商业选址、城市规划、农业估产,也可能是气候变迁;标签根据应用目标自成系列。数据内容包括:自然地理属性(土壤、地形、气象、地质条件…)和社会属性(行政区划、规划用途、居住人口、房价…)以及由物联网和互联网产生的相关动态数据。
“地理画像”与“用户画像”的最大差别在于:“用户画像”的最小单元是一个自然人,而“地理画像”的对象是一片区域,这个区域是由若干个小区域组成的,“地理画像”更接近于“用户群画像”。
事实上,以上这些分析方法一直在使用,时空大数据的背景下,应用模式将发生巨大变化,实时性和精准度都将大幅提升,原因在于爆发式增长的数据。
我们认为:“地理画像”是时空大数据的核心。
“地理画像”的瓶颈问题
如果对比用户画像的分析过程,会发现“地理画像”在大数据的应用背景下,存在若干瓶颈问题。
用户画像的实施逻辑为:以一个用户的手机号、邮箱、昵称等为线索,收集数据,通过分析得出一个人的完整行为标签,用户就是大数据分析中的“对象”,手机号、昵称就是数据整合的“线索”,而分析的目标是解析该对象的行为特征。收集数据并按主题汇聚的过程,被称为“数据融合”。
在“地理画像”中,数据融合的逻辑要更为复杂,首先是“空间对象”定义的不一致和不稳定,不一致性体现在:不同专题的数据库中,对于同一区域的定义是不一致的,或者根本就是缺失的,比如我们要对回龙观地区进行地理画像,首先要划定一个多边形确定研究范围,而在城市规划、国土资源、公安和市政部门,对于回龙观地区的定义都是不一样的,在环保、地质、气象等领域中,根本就没有回龙观这个区域的定义;所谓不稳定,在同一系统中,不同比例尺下,同一个地物的形状不稳定,同一地物在不同尺度的地图中表达方法不同,经过了不同规则的综合和取舍。空间对象不稳定和不一致,加上空间数据的空间参考、数据格式、数据种类的复杂性,数据融合困难重重。

地理画像的第二个瓶颈是跨数据集数据调度的问题,空间数据库全部都是独立建设、独立管理、独立索引的,数据库之间由于缺乏共同的索引机制,形成“孤岛现象”,跨数据库调度困难为数据融合带来障碍;
地理画像的第三个瓶颈在于,用点线面和文件定义的空间数据结构,难以分割和重组,为数据融合带来不便。
解决以上问题的传统方法是空间分析,即将相关的数据图层汇集到一起,人工设定算法进行叠加分析,逻辑复杂效率低,需要专业人员全手工操作,与大数据时代的自动化要求相去甚远。
如上所述,传统的空间数据结构难以支撑大数据时代的“地理画像”,需要面向大数据时代设计新的时空信息框架。据统计,硅谷80%的大数据公司从事数据处理和融合的相关技术研发,可见数据融合是大数据应用中的难点和重点。
  大数据时代的“地理画像”

时空大数据的背景下,应用模式将发生巨大变化,实时性和精准度都将大幅提升,原因在于爆发式增长的数据。
  地理画像,需要新的地理语言
  地理学与地理的语言
地理是自有人类文明以来最古老的学科之一,洞穴时代的人类就在岩画上标记周围出没的动物,中国最早出现“地理”一词是在公元前4世纪成文的《易经·系辞》,里面有“仰以观于天文,俯以察于地理”的文句,中国古代著作《山海经》被认为是中国第一本地理学著作,而中文“地理”一词包含大量风水学内容;在西方,公元前2世纪,古希腊学者埃拉托色尼第一次合成了geographica(geo+graphica)这个术语,意思是“地理”或“大地的记述”,并写出了西方第一本以“地理”命名的专著《地理学》。
现代地理学的定义是研究地球表面的地理环境中各种自然现象和人文现象,以及它们之间相互关系的学科,是一门复杂学科体系的总称。各个领域大数据应用,都离不开地理环境和人类行为之间相互关系的研究和分析,广义上讲都属于地理问题。
地理学的语言体系,也经过了几次进化。目前普遍认为,文字是地理学的第一代语言,地图是地理学的第二代语言,而地理信息系统(GIS)被认为是地理学的第三代语言,也是目前的主要语言,其核心要素为点、线、面、属性和拓扑信息。
时空大数据对地理语言的挑战
面对大数据时代和即将到来的人工智能,地理学的语言是否需要再次升级?从语言的功能来看,记录、沟通和逻辑表达是三个最重要的维度;下面从语言的角度分析一下大数据时代传统GIS遇到的挑战:
第一, 传统GIS无法记录传感器信息。
GIS的最初设计是面向地图而非传感器,点线面记录的不是直接的传感器信息,而是经过人类抽象加工的结果,这种抽象会损失或损坏大量的原始信息。从信息记录的角度看,面对传感器数据的爆发增长,传统GIS力不从心。
第二, 传统GIS无法表达实时、立体信息。
从人类对于地理信息的感知需求上看,未来的需求是实时的、立体的和具体的,传感器可以在数据获取上满足需求,但基于点线面的GIS在实时性和表现方法上都差强人意。
第三, 传统GIS系统之间沟通不畅。
从语言作为沟通工具的角度看,跨领域的交流和数据融合日趋重要,甚至是大数据的核心。传统GIS存在几个障碍,首先,不同GIS软件的数据格式不同,需要做转换,这个相当于人类语言中,中文和英语的差别;其次是同一软件系统中的不同数据库之间有沟通障碍,可类比人类语言的不同方言;最大的障碍是GIS数据和非GIS数据,就是人类语言和动物语言的差别了,基本上无法沟通。沟通障碍,是GIS作为大数据时代地理语言的重要问题。
第四, 传统GIS非面向计算机的语言
地图从古至今是面向人类视觉的,但大数据时代的时空信息重点在于支持机器学习和机器识别,传统地图数据难以被计算机理解。事实上,在导航和互联网地图中,用于计算和用于显示的是完全不同的两套数据;在机器人和无人驾驶中的环境数据也不是传统地图。可以说,大数据时代“地图没有图”,这也意味着基于地图的传统GIS真正融入大数据时代有先天的不足。
第五, 空间逻辑体系略显单薄
从地理要素之间的逻辑关系表达上看,大数据的重点是通过数据融合分析揭示相关关系而非因果关系,GIS利用空间拓扑信息表达空间关系的逻辑体系已经无法满足。
现有的地理信息系统,是将地图搬到计算机中,是数字世界的“移民一代”,基本概念沿袭手工制图,比如比例尺、符号化、投影等,分析展现方法也以目视判别为主;而大数据时代,我们需要直接利用传感器的数据进行分析,使数据成为数字时代的“原住民”,而他们之间的沟通,需要新的地理语言。
  站在十字路口的地理语言

文字是地理学的第一代语言,地图是地理学的第二代语言,而地理信息系统(GIS)被认为是地理学的第三代语言,那么新一代的地理语言是什么样子的呢?
  康德的时空观与新一代
  时空数据模型
地理画像是使用一系列标签对于地理区域进行描述并进行动态监测的方法,也是时空大数据应用的主要方向。地理画像的核心障碍是数据融合,根本原因在于,传统的时空数据模型已经无法适应大数据时代的应用需求,亟需改变。
康德的时空观与时空信息
德国哲学家康德认为:时间和空间是人类的“先验认知”,所谓“先验”就是先于经验的,即还没有任何知识的时候,时空就已经存在每个人的意识当中,人对所有事物的认知要放在时间和空间的框架中来,时空即成为了所有知识的共同基础,正是这样,人类才能清晰的认知事物之间关系。
引入康德时空观来观察空间信息系统,始终缺少一个统一的基础时空框架来承载所有的数据内容,而是面向具体应用独立定义各自的空间和时间体系,这也是数据融合困难的根本原因。经纬度坐标系是所有数据的共同基础,但其本质上是一个空间位置参考系统,无法成为数据承载框架。
新一代时空数据模型的基本要求
借鉴康德的时空观,在大数据时代,如果要实现多源异构数据的融合,必须构建一个独立于具体数据的基础框架,才能够实现数据之间的融会贯通,可以称之为新一代的时空数据模型,需满足以下几个条件——
第一、 具有全局性和独立性
所谓全局性,有两个含义,第一个可以作为承载所有类型数据的共同框架,第二个是成为跨越数据集之间的全局索引。
  所谓独立性,是指独立于具体的数据内容而存在,不依赖特定的数据类型。
第二、 继承传统GIS数据
新的时空数据模型需要兼容和继承传统GIS数据,可以方便调用、抽取和整合数据。
第三、 适应各类传感器数据
新的时空数据模型需具备组织、管理和调度传感器数据的能力。传感器数据是时空大数据的主要来源,包括遥感数据、各类监测传感器和泛物联网数据。
第四、 具备时空一致性和稳定性
时空定义模式要保证不同时空尺度下时空定义的一致性和稳定性,使时空范围可以作为数据汇聚和融合的线索。
第五、 适应大数据IT架构
数据模型需要适应分布式计算、分布式存储和机器学习。
第六、 普适性
时空属性是所有数据的共同特征,新的时空数据模型可为任意类型的数据添加时空标签。

来源:未知

推荐阅读
分享到:

Copyright © 2002-2016 北京体育广播 All rights reserved 

Power by DedeCms
郑重申明:未经授权禁止转载、摘编、复制或建立镜像.如有违反,追究法律责任