我在亚马逊学到的三样东西,为我的机器学习职业之路做好了准备


本文地址:http://www.6aiq.com/article/1569161146669
知乎专栏 点击关注
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出

亚马逊是一家伟大的公司,其中有很多值得学习的地方,这篇文章的作者在亚马逊待了 5 年,这三点是他感受最深的。

我在亚马逊工作了 5 年,只差几天就能拿到梦寐以求的“黄色徽章”。值得注意的是,亚马逊的平均任期在一到两年之间。虽然有很多关于在亚马逊工作的故事,但我觉得那里的文化比任何教程都更能帮助我从游戏开发转向机器学习。

如果你不太了解 Amazon 的文化,那么快速搜索一下是值得的。此外,虽然我可以写一整本书来描述我在那里的经历,但我想我应该把重点放在我学到的三件事上,这三件事让我为这个新的职业生涯做好了准备:数据驱动型、6 页纸写作和足智多谋。Amazon 有一组原则,称为领导力原则,这些原则为其独特的文化做出了贡献。自 2014 年我加入亚马逊以来,这种文化让亚马逊得以成倍增长。下面是我如何将这些知识应用到我的机器学习中。

数据驱动的概念,可能是亚马逊企业文化中最重要的部分。

数据驱动

虽然我工作过的很多公司都说他们这样做,但我还没有找到一家像亚马逊这样的公司。每次计划或策略会议都是在回顾历史数据、实时数据和未来数据预测之间进行微妙的平衡。亚马逊将其归结为一门科学。

从试图将大量数据提炼成可随时纠正方向的可消化形式的每周业务报告 (WBR),到大多数团队都有专门的数据分析师这一事实。分析师的唯一工作是帮助构建每周报告,连接不同业务单元之间的报告系统,并尽可能多地自动收集数据,这样我们就可以随时获得业务单元状态的快照。

机器学习的核心是数据本身。没有有用的、干净的、可靠的数据,就没有办法准确地训练、测试和验证模型。此外,尽管在构建模型的实际过程中投入了大量的时间和精力,但是理解数据本身是一项关键技能。

研讨会的题目是“将‘数据’应用于数据科学”,它完全聚焦于使用医学数据进行深度学习的挑战。任何对机器学习感兴趣的人都应该具备的一项重要技能是,不仅能够理解如何管理和处理数据,而且能够对数据进行分割、验证和清理。你的实验只取决于你所拥有的数据,知道如何管理数据同样重要。我在亚马逊学到了很多关于数据的重要性以及如何正确使用数据。

写 6 页纸

亚马逊以其写作文化而闻名。虽然他们在介绍中告诉你,任何人都可以提出一个想法,从零开始创建一个新的业务,比如关于 AWS 是如何产生的神话,但实现的方式是通过 6 页纸。这些都是详细的文档,不仅解释了一个战略或计划,而且它还必须以叙述的形式编写。在亚马逊的会议上没有 ppt 演示。



大多数会议都包括前半部分阅读文件,后半部分在文件上戳洞。要想在亚马逊取得成功,你必须能够使用数据来证明你的观点,以一种其他人能够理解的方式阐明你的观点,并创建一份任何人都能理解的文档,无论他们是否参加了你的会议。

任何在机器学习领域工作的数据科学家或工程师都应该具备的最关键的技能,能够和别人沟通他们在做什么,如何复制它,以及它提供的价值。

数据科学社区的很大一部分围绕着撰写和阅读研究论文。因此,尽管这很容易类比到 6 页纸在亚马逊工作的重要性,因为写论文就像写博士论文,但实际上,数据科学家应该记录他们的研究,原因有很多。通常,他们是在团队中工作的,因此能够跟踪为达成解决方案而采取的步骤是至关重要的。在没有大量实践的情况下,能够捕获并与团队或公司外部的其他人分享这些知识并不是每个人都具备的技能。

我认为这是任何在机器学习领域工作的数据科学家或工程师都应该具备的最关键的技能之一,能够沟通他们在做什么,如何复制它,以及它提供的价值。

管理资源

从外部看,亚马逊似乎是一个拥有几乎无限资源的大型组织,事实上,每个部门的团队通常都很小。他们的规模很小,有时甚至处于人手不足的边缘。此外,团队被期望精益运行,相应地管理有限的资源,而且大多数时候,你会身兼数职。

虽然一个团队可以获得更多的资源,但亚马逊的核心宗旨是节俭。要想在亚马逊取得成功,你必须充分利用现有资源,并富有创造力地实现最终目标。甚至还有一个原则叫做“行动的偏见”,它允许你不受限制地去做一些事情,只要是为了最终目标的利益。

我不期望每次训练之间所花费的时间会很少,也不期望 GPU 资源能够加快速度。

随着我对机器学习的深入研究,我清楚地认识到,管理资源在我进行的每一次实验中都扮演着至关重要的角色。我无法预料到每次训练之间所花费的时间,也无法预料到 GPU 资源需要加快速度。另外,随着我进行越来越多的实验,我需要找到创造性的方法来平衡云计算的可扩展性和利用本地资源。

在大多数情况下,我将尽可能多地进行本地测试,然后在云上同时运行我的实验,在多台计算机上进行不同的修改,以更好地帮助选择最佳解决方案。目前,数据科学家很难招聘,所以很有可能你最终会在更小的团队中工作,需要弄清楚如何在每个人之间共享资源,并在降低成本的同时加快训练模型之间的时间间隔。这是一个微妙的平衡。

英文原文: 英文原文:https://towardsdatascience.com/three-things-i-learned-at-amazon-that-prepared-me-for-a-career-in-machine-learning-63b6dae5bc5
作者:Jesse Freeman
编译:ronghuaiyang
转载自: AI 公园


本文地址:http://www.6aiq.com/article/1569161146669
知乎专栏 点击关注
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出