900字范文 > 揭秘Google的大数据黑科技|极客时间

揭秘Google的大数据黑科技|极客时间

时间：2020-05-10 08:30:33

题图：金门大桥

江湖传言，Google这个公司特别鸡贼，他们一般是等到自己的下一代技术产品开发的差不多了，再对外开放「这一代」的技术，比如大数据领域的三驾马车：Google文件系统——GFS第一次公开发表论文是，MapReduce公开发表是，BigTable则公开发表在。但这三种技术开放给业界的时间是，说明Google很早以前就在内部使用这三驾马车了。

时至今日，三驾马车早已不在浪潮之巅。大数据发展和生态圈的繁荣程度，超乎想象。从Spark成为Hadoop生态的一部分，到Flink横空出世挑战Spark成为大数据处理领域的新星……终于，Google2月宣布将自己的大数据产品（GoogleDataFlow）贡献给Apache基金会孵化，始有ApacheBeam，意图统一数据处理的标准。

时至今日，Beam已经发布了2.11版本，Beam的使用者也越来越多，关注度越来越高。不光外国公司Google、Spotify、亚马逊、DataArtisans等用上了Beam，TensorFlow机器学习框架也跟Beam结合使用做机器学习的预处理工作，国内包括阿里巴巴、百度、金山、苏宁、九次方大数据、360、慧聚数通信息技术有限公司等也在使用Beam进行大规模数据处理。

Beam在发布第一个版本后，不断完善模型和运行平台。SDKs也添加了许多IO，例如消息中间件又新增了ActiveMQ和RabbitMQ，缓存新增Redis，大数据分析神器Kudu，大数据存储格式Parquet等等。Runner新增了实时流处理Samza和JStorm、MapReduce和加速Hadoop查询Tez，此外新增了Beam部署Docker的DockerCommand接口，以及Metrics监控的引入和集成。其他SDK和Runner也在不断更新中，Beam每6周发布一个小版本，及时完善了一些一次性未集成完善的功能。

下图是日益丰富的大规模数据处理技术生态：

丰富的工具，繁荣的生态，也增加了开发者选择合适工具的难度。把开源框架，工具，类库，平台整合到一起，所需要的工作量以及复杂度，可想而知。技术的选择与使用，也是大数据开发者非常头疼的问题。

为此我们找到了在GoogleBrain担任AIHealthcare(人工智能的健康医疗应用)领域资深工程师蔡元楠咨询，他具备丰富的大规模数据处理经验。

作者简介：曾任职于Google搜索广告系统和智能语音助手系统，目前在谷歌大脑工作。在Google除了技术工作外，还兼任C++语言评审，AI挑战赛评委会委员等。加入Google之前，分别在纽约哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位，也曾在哈佛医学院执行官项目学习。

他的看法是：如果在处理大规模数据的时候没有自己的深层次思考，确实很容易陷入误区。而目前大家对于大数据处理的理解误区，一般有以下几种：

1.低估了数据处理的重要性。我在 Google Brain 的AI应用领域工作，切身感受到没有高质量的数据处理，人工智能只有人工没有智能。例如在语义理解上，Google就曾犯过这样的错误，直到被一家德国的小公司超过，才认识到高质量的数据标注和处理的重要性。

2.低估了数据处理工程师在组织架构上的重要性。大数据领域泰斗级人物JesseAnderson曾做过一项研究，一个人工智能团队的合理组织架构，需要4/5的数据处理工程师。其实，即使是一个写前端的工程师，很多工作还是数据处理。很不幸，很多团队没有认识到这一点。

3.低估了数据处理规模变大带来的复杂度。很多人还没有遇到过「大规模」的问题，因此容易把问题想的过于简单。我在Google面试过很多优秀的候选人，他们对常见的编程问题可以很好的解决，但只要追问数据规模变大时怎么设计系统，他们的回答却并不让人满意。

4.高估了上手数据处理的难度。一方面我们需要认识到大规模的数据处理是有复杂的因素的。但另一方面，有了正确的工具和技术理念，现在上手数据处理并不困难。在Google，我见到很多应届生来了半年后也能轻松应对上亿的数据量。

如何解决这些问题呢？经过长时间的探讨，我们邀请蔡元楠在极客时间上开设了一个「大规模数据处理实战」的专栏，帮助你比别人更准确深入地掌握实用的大规模数据处理技术，揭秘Google黑科技，达到硅谷一线系统架构师的水平。

历经三个月的打磨，这个专栏今天正式上线。

专栏宗旨：培养Google工程师精神，敢于打碎任何权威，从问题出发思考最佳方案。

作者会从这两方面入手：一是为你介绍硅谷最前沿技术和真实的案例，例如最新的框架层面的前后端分离理念，和批处理流处理统一的思想。二是带你剖析技术框架产生的原因和他们解决的问题，让你在遇到相似的问题的时候，做到心中有数。

点击图片试看或订阅

专栏简介：

为了给读者设计一条切实可操作的学习路径，便于上手，作者会用40+篇内容，分享他在Google的大数据处理实战经验：

第一部分，用实际的硅谷一线大厂的案例，向你解释MapReduce为什么不能应对最新的技术挑战。从实际的问题出发，从头开始引导读者怎样从顶层设计一个数据处理框架。

第二部分，结合实战案例，讲解在数据处理框架的使用和设计中，包括必需的基础知识。这些案例紧贴应用，也许就是你的团队明天会碰到的问题。

第三、第四部分深入拆解了ApacheSpark和ApacheBeam。不仅会用实际的案例教会你如何使用，还要教会你为什么它们这么设计，你会发现它们的设计其实大致和第一部分的顶层设计是一致的。这样下一次即使这个世界一无所有，你也能构建类似的框架解决一系列问题。

第五部分按GoogleT6级别设计的，是带着代码的真枪实弹架构设计。毫不夸张地说，能完整掌握第五部分的思想精髓，你就能比肩硅谷一线大规模数据处理架构师。

第六部分着重培养你的技术远见。因为是否能现在就开始准备应对后人类社会的技术挑战，是你拉开与别人差距的重要一站。

上新优惠，推荐你也加入学习

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。