北极星

搜索历史清空

  • 水处理
您的位置:环保环境监察访谈正文

【访谈】大数据能否破解数据造假难题?

2015-07-13 09:27来源:中国环境报作者:李莹关键词:环保大数据环境监测节能减排收藏点赞

投稿

我要投稿

环境监测数据的真实性直接关系到环境管理和综合决策。然而,目前的在线监测数据造假已经成为困扰环保部门的难题之一。近年来,大数据如同浪潮一般席卷全世界,直接带来了科研、商业、政府运作方式乃至人类思维方式的变革。很多人期待,环保大数据的应用和发展能够从根本上扭转监测数据造假局面。环保大数据可否发现、纠正数据造假?要推动环保大数据的发展和应用还需突破哪些障碍?

林宣雄,1962年9月生,江苏宜兴人,西安交通大学环保大数据研究中心主任。1998年获陕西省优秀青年科技工作者称号,1999年主持研发的“国家环境监理信息系统”被确定为国家级火炬计划项目,同年获省优秀软件人才称号;2003年获首届省优秀青年科技创新奖;2008年承担环境保护部节能减排核心重大软件项目。长期从事环保物联网技术研究及应用。

大数据可否解决数据造假问题?

■可以通过环比、同比、类比,发现数据中的异动

中国环境报:在线监测数据造假已经成为当前环境管理工作中的一大难题。一些专家认为,以大数据为代表的新技术可以破解这一难题。您怎么看?

林宣雄:我也这样认为,用大数据的分析方法可以发现在线监测数据造假。其实,这也是我的研究重点领域之一。

在解释大数据如何破解在线监测数据造假问题之前,必须先了解大数据的基本特征。

大数据是近年来的一个热词。什么是大数据分析?通俗地讲,就是运用一些数据分析软件工具,对海量的、混杂的数据进行分析,在融合丰富的实践基础上,运用创造性思维,得出突破性的结论。大数据包括3个特征:一是具有海量的、混杂的基础数据;二是熟练运用Hadoop和Spark等分析软件工具;三是具有开放的、有创造性的思维方式。只有具备了这3项,才能真正做好大数据分析。

大数据和以前的数据分析有3个明显的区别:一是原来的数据分析针对部分样本,大数据是所有的数据都要参与计算;二是大数据中,相关关系重于因果关系;三是大数据允许混杂数据甚至错误数据。

我们得到海量数据后,首先,要对这些数据进行本体分析,即对其本身进行分析,如污染源数据、环境质量数据等。其次,要做扩展分析,如分析清楚污染源数据和环境质量有什么关系。第三,要做延伸分析,即将污染源数据、环境质量数据和经济数据、人口数据、产业结构的数据结合起来进行分析。如果不做这些分析,就不算是大数据分析,或者说做不好大数据分析。

中国环境报:您刚刚谈到,大数据允许混杂数据甚至错误数据,这是为什么?

林宣雄:大数据允许混杂数据甚至错误数据。这是因为,大数据能够通过造假数据的特征将其辨识出来。造假的数据和平常的数据不一样,可以通过环比、同比、类比,发现数据中的异动,判断企业是否存在数据造假行为。

原标题:大数据能否破解数据造假难题?
投稿与新闻线索:电话:0335-3030550, 邮箱:huanbaowang#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

环保大数据查看更多>环境监测查看更多>节能减排查看更多>