一个“大数据”的故事

文章来源:基础软件国家工程研究中心 徐普 软件发展部 孔维一  |  发布时间:2018-12-25  |  【打印】 【关闭

  

     (一)

      最近,老师交给你了一项任务:分析我每天9点钟会在哪儿。

      于是,你潜伏在软件所与宿舍之间,观察我的行踪。

      经过了三天的观察,你发现,每天8点半我会去实验室,中午我才会从实验室出来吃饭。

      所以,9点的时候我肯定在实验室,于是你得出结论:

           我每天9点钟在实验室

      你圆满地完成了任务,回去找老师汇报。按照你的结论,明天我9点的时候一定还会在实验室,你信心满满地拉着老师来验证结论。

     (二)

        第四天,我没有出现在实验室。

      因为第四天是星期六,我不上班。

     (三)

      于是,尴尬的你决定进行长期的观察。

      一眨眼,两个月过去了……

      你终于发现,我只在工作日才会上班,周末两天我宅在宿舍睡大觉,一觉睡到中午12点才爬起来去食堂吃饭。

      根据新的观察结果,你对你的结论进行了修正:

          周一到周五每天9点我在实验室

          周六和周日每天9点我在宿舍

     这次看起来应该没问题了……吧?

    (四)

     第一个星期,一切正常。

     第二个星期,是8月,我放暑假回家了……

    (五)

    你意识到,再这么观察下去不是个办法,于是你又找到了一年里所有节假日的放假安排。

    同时,你发现,我家离北京很远,回家要很长时间。所以短的假期我回不去;长假我才会回家,到时候肯定是在家睡大觉。

    根据新的信息,加上你的推理,你再次对你的结果进行了修正:

         工作日每天9点我会在实验室

         周六周日以及短假每天9点我会在宿舍

         长假每天9点我会在家

    嗯,非常完美,于是你自信满满地又拉来老师验证你的结论。

    (六)

    某个工作日,我因为前一天熬夜看动漫睡过了头……

    长假第一天,我被堵在半路没到家……

    回来第三天,我出差了,一个星期都不在北京……

   (七)

   你沮丧地发现,虽然你的结论越来越接近真实情况,但永远会有“意外”出现,导致你的结论出错。为了能够包括这些“意外”,你需要额外统计更多可能相关的东西。但是“意外”永远层出不穷,为了更准确地预测我的位置,你要统计的东西越来越多,无穷无尽

   (八)

   恭喜,你开始理解大数据的作用了。

   (九)

   我们日常的所有事务,都在无时不刻地产生着信息。通过这些信息,我们能够更全面地了解问题,从而更好地解决问题。医生望闻问切诊断病人、老师根据成绩判断学习情况、警察通过蛛丝马迹侦破案件,都是在利用信息来解决问题。

   然而,就像前面的故事一样,为了更好地解决问题,需要收集更多的信息。得益于计算机技术的发展,我们能够通过数字化的信息系统收集海量的信息数据进行分析,这在过去是难以想象的。

   这,就是大数据。

   通过对大数据进行分析,我们往往能够发现更多潜在的、以前被忽略了的规律,因此能够得到更加精准的结果。人工智能的惊艳表现,淘宝精准的个性化服务,背后都离不开大数据的强力支撑。

   但正如前面的故事一样,虽然我们需要更多的数据来更好地解决问题,但数据永远都是不够的,并且是无穷无尽的。因此,大数据一直走在一条“没有最好,只有更好”的路上,而我们的数字化生活,也将越来越便利。