注册 投稿
经济金融网 中国经济学教育科研网 中国经济学年会 EFN通讯社

大数据解决大问题

作者:凯文•布德罗

来源:哈佛商业周刊 

萨拉•格林(sarah green): 今天,我们将与伦敦商学院凯文•布德罗(kevin boudreau)教授一起探讨大数据和创新话题。首先,在我们讨论之前,可能有人还不太熟悉大数据的概念,你能否为他们提供一个简要的介绍?

凯文•布德罗:大数据是一大趋势,它可能是或者说有机会成为堪比互联网本身的大问题。在很大程度上,大数据的发展得益于过去几十年互联网及信息技术的崛起。大数据广泛存在于网络操作中、市场营销过程中,或者是医学科学研究上,甚至可以说,在任何行业领域当中,我们收集了比过去多得多的数据。但我们还只是对每一笔交易做简单的数据收集。我刚才也提到,我们已经在医疗研究领域进行大数据收集——人类基因组研究数据已达到tb级别,目前人类正试图更好地利用这些数据。

大数据时代提供的机会,不再是简单地收集这些数据,而是如何运用数据来更好地认知这个世界。人们可以通过购买数据测算程序,在既往的商业经验、科技成果或是其他人类实践基础之上,更精确地预测未来会发生什么。

萨拉•格林:这很有趣,我一直听到的说法是,很多公司都把大数据视为是营销热潮的机会。他们终于可以更紧密地追踪他们的客户习惯。但除此之外,大数据还有什么用途?它真能推动创新、启发创造力吗?

凯文•布德罗:我首先得说,大数据不仅仅局限于营销,通过大数据也可以改善我们做事情的方式。我一直在和一些公司接触,他们都在思考,该如何将采集到医疗保健机构的大量操作信息,分析患者情况或治疗效果,实施任何高效率的措施,使之更具有意义——因为对于一个特定的组织来说,所有这些不同的程序都是在同一时点同时进行的,该如何调整,如何分配资源,如何监控,如何促使员工更加积极有效?在数据运用方面上,如果我们都这么思考,那么就会产生出很多富有互动性的决定,并能更好地了解提高效率的因素究竟是什么。

因此,在一定意义上,我们可以运用已收集的数据,来了解如何把事情做得更好。从这个角度上,我们再来考虑创新和大数据。至于创新过程本身,坦率地说,我认为我们还没有真正收集到大数据,或者说还没有形成系统化的内部研发团队。一般说来,我们可以收集到大量数据,判断出哪些产品继续生产或停产,但我的猜测是,我们判断时仍在依靠探索法,仍在依靠门径管理程序,以及经验主义或是主观主义的推断。我认为,这距离大数据时代的要求还有很长的路要走。

因此,即使是在执行及建立最有效的预测分析方法的时候,也存在某种创新。在我自己的工作当中,我常会借此思考应该如何组织项目分析。我和哈佛商学院卡里姆•拉赫凯尼(karim lahkani)教授合作时,我们实际上运用众包形式(crowd sourcing),鼓励上千名数据演算开发者弄清楚,对于给定的问题,什么才是最佳的解决方案。

萨拉•格林:听起来很有趣。对我来说,我就会有一些问题想问了。你做了一些工作,使得大数据能真正投入到应用当中。但是,我认为你所指出的问题中,对于大数据应用的一大挑战就是,更多的数据并不总是意味着是更好的数据。那么,众包服务是如何运行的呢?当数据大门突然打开之际,你如何找到答案或者说有用有效的数据?

凯文•布德罗:是的。所以有很多预测分析并不成功,当然也包括一些众包服务。在工作中,我们常会坚持相当绝对的断言,但如果你在某个特定的领域有问题,比如金融、市场营销、工程或是医学研究方面,那你首先就应该仔细界定问题,分析清楚它们。你不得不先把问题转变成一个抽象的——本质上抽象的数学问题,然后众包给数量庞大的解决方案提供者。我们必须确保问题能够让众人接触到。

现在,你问到数据本身。我们的做法是从案例开始。我想,我们已经定义了问题,并在组织中找到了可用的数据。例如,癌症影像问题,通常情况下,我们已经有一个对过去病人病例影像的整体数据库,并且存有这些病人是否得了癌症的诊断,在这种情况下,它只是一个现成的数据库,我们该想一想,如果通过数字化的形式去表述影像所反映的情况,那要如何去定义数据算法,结果会是积极的还是消极的。只有这样,我们才可以在这些答案的子集基础上写出算法,并找出我们如何做出预测的。而后,我们还可以在第二个子集中验证算法。

对于这些核心数据集,我们会有很多问题,不过事实上,我们可以通过众包服务客获取相关数据集的建议。

运用大数据进行分析的挑战不只在于定义算法本身,也在于如何确定它们是否有效,其提供的解决方案是否正是我们寻找的。但关于到底该使用哪些数据,这也有很大的模糊性。所以你提的问题是一个很大的问题。我认为众包形式的优势之一是,我们可以通过反复斟酌以及众多可能的途径,吸收合并很多数据集。

萨拉•格林:正如您谈到的,像医疗应用这类庞大的、真正令人兴奋的项目,有可能通过大数据及众包服务客的共同努力加以解决。我想知道的是,究竟是怎么样的人,帮助你们制定了算法,或者看到了这个问题?因为听起来并不是一家以盈利为目的公司在这个问题上做出了转向,而是一群你甚至都没有见过面的个体,在这个项目上花费了时间。那么,这些人是谁?我们怎么去了解这些帮助解决类似问题的人群呢?

凯文•布德罗:我想众包的一大优势和特点就是,他们往往是一群分散而又高度多元性的问题解决者。目前,实际上已经有一些这样的平台,比如像innocentive、topcoder或kaggle。他们通过一些难题召集建立起网络社区,聚集了世界各地数万名问题解决者。在topcoder网站甚至达到数十万之多。这些人分布在世界各地,来自各个领域,有的是业余黑客,有的是大学毕业生,有的是兼职工程师。

这种多样性之所以非常重要是因为,我们正处在大学建立主流数据科学之前的时期。在这个阶段,解决处理大数据问题需要了解基本要点、搭建基础设施、提供内部数据、积累网络储备资源,让人们能够访问数据以解决问题。除了基础知识和基础设施问题,我们必须了解如何整理、合并及管理数据。然后就是创建分析模型本身,它常常会涉及到对不同类型解决方案的整合。

所以我认为,上述所需要的管理大数据、提供有效解决方案、最终解决问题的一整套技能,是完全不同的。事实是,我们确实没有一个人可以解决这些问题,但我们可以借助于众包客,特别是他们背景覆盖了众多领域,这就是为什么我认为他们能在大数据和统计分析上做出如此重大进展的原因。

萨拉•格林:这听起来正像一些人担心的,新的数据算法意味着人类不再需要此类工作了,但也可能只是担心而已。

凯文•布德罗:短期内,要解决这些问题恐怕会有更多的工作,但实际上,我认为,最终这将为是人们未来就业发展前景中一个非常重要的力量。届时,这些人操控着符号和数据,知识阶层得以崛起,那将成为如彼得•德鲁克所说的知识工作者的时代。而很多更基本的工作都将转变为某种文书工作。我甚至觉得,过去一大部分的知识工作者都在走入末路。

而数据科学家或数据经理人,则会具备更多优势。当然这个趋势并不必然会转变所有知识工作者的性质。

萨拉•格林:凯文,我想问问你,我们现在已身在大数据的早前阶段,我们刚才也探讨了很多,你认为大数据会如何发展?未来五年、十五年、二十年会有什么结果?你希望它如何发展?

凯文•布德罗:嗯,我想谈谈我对于这种变化的一些想法,而不是给出任何标准化判断。当我观察一个行业、一项技术、一组功能的大数据和分析时,我觉得它们看起来就像是产业革命演进的教科书案件。我们正处在一个酝酿阶段,其中充满了不确定性,管理者们想搞清楚向何处投资、如何投资、如何围绕大数据进行组织。过去一直是技术专家在主导,由他们提供发展的看法。而在目前这个阶段,这距离广泛的经济民主化的要求,还相差甚远。

我想这是非常令人兴奋的——真到了决赛时,我想很多公司都将有像谷歌一样的数据能力。但它会是某种不太稳定的实验过程。(徐明/译 钱昱辛/校)

文章评论
关注我们

快速入口
回到顶部
深圳网站建设