2021 年 4 月份,阿里蚂蚁金服算法岗实习面试题 6 道

文末彩蛋:七月在线干货组最新升级的《2021 大厂最新 AI 面试题 [含答案和解析, 更新到前 121 题]》免费送!

1.使用 Word2vec 算法计算得到的词向量之间为什么能够表征词语之间的语义近似关系?

参考答案:

word2vec 是一种高效实现 word embedding 的算法,word2vec 模型其实就是一个简单化的神经网络,输入是 One-Hot 向量,Hidden Layer 没有激活函数,也就是线性的单元。Output Layer 维度跟 Input Layer 的维度一样,用的是 Softmax 回归。word2vec 得出的词向量其实就是训练后的一个神经网络的隐层的权重矩阵,经过 CBOW 或 Skip-Gram 模型的训练后,此意相近的词语就会获得更为接近的权重,因此可以用向量的距离来衡量词的相似度。

2.在样本量较少的情况下如何扩充样本数量?

参考答案:

  1. 同义词替换(SR: Synonyms Replace):不考虑 stopwords,在句子中随机抽取 n 个词,然后从同义词词典中(wordnet)随机抽取同义词,并进行替换。
  2. 随机插入(RI: Randomly Insert):不考虑 stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复 n 次。
  3. 随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复 n 次。
  4. 随机删除(RD: Randomly Delete):句子中的每个词,以概率 p 随机删除。

3.介绍一下 Python 的装饰器。

参考答案:

装饰器本质上是一个 Python 函数或类,它可以让其他函数或类在不需要做任何代码修改的前提下增加额外功能,装饰器的返回值也是一个函数/类对象。

装饰器的作用是装饰函数,即在不改变原有函数的基础上,增加新的函数功能,让函数更加强大。

装饰器适用的两个场景:增强被装饰函数的行为;代码复用。

4.什么是梯度消失和梯度爆炸?

参考答案:

根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时,得到的梯度值接近 0 或特别大,也就是梯度消失或爆炸。梯度消失或梯度爆炸在本质原理上其实是一样的。

5.leetcode46. 全排列

预备知识回溯法:一种通过探索所有可能的候选解来找出所有的解的算法。如果候选解被确认不是一个解(或者至少不是最后一个解),回溯算法会通过在上一步进行一些变化抛弃该解,即回溯并且再次尝试。方法一:回溯思路和算法这个问题可以看作有 nn 个排列成一行的空格,我们需要从左往右依此填入题目给定的 nn 个数,每个数只能使用一次。那么很直接的可以想到一种穷举的算法,即从左往右每一个位置都依此尝试填入一个数,看能不能填完这 nn 个空格,在程序中我们可以用「回溯法」来模拟这个过程。我们定义递归函数 backtrack(first, output) 表示从左往右填到第 firstfirst 个位置,当前排列为 outputoutput。 那么整个递归函数分为两个情况:如果 first==nfirst==n,说明我们已经填完了 nn 个位置(注意下标从 00 开始),找到了一个可行的解,我们将 outputoutput 放入答案数组中,递归结束。如果 first<nfirst<n,我们要考虑这第 firstfirst 个位置我们要填哪个数。根据题目要求我们肯定不能填已经填过的数,因此很容易想到的一个处理手段是我们定义一个标记数组 vis[]vis[] 来标记已经填过的数,那么在填第 firstfirst 个数的时候我们遍历题目给定的 nn 个数,如果这个数没有被标记过,我们就尝试填入,并将其标记,继续尝试填下一个位置,即调用函数 backtrack(first + 1, output)。回溯的时候要撤销这一个位置填的数以及标记,并继续尝试其他没被标记过的数。使用标记数组来处理填过的数是一个很直观的思路,但是可不可以去掉这个标记数组呢?毕竟标记数组也增加了我们算法的空间复杂度。答案是可以的,我们可以将题目给定的 nn 个数的数组 numsnums 划分成左右两个部分,左边的表示已经填过的数,右边表示待填的数,我们在回溯的时候只要动态维护这个数组即可。具体来说,假设我们已经填到第 firstfirst 个位置,那么 numsnums 数组中[0,first−1][0,first−1] 是已填过的数的集合,[first,n−1][first,n−1] 是待填的数的集合。我们肯定是尝试用[first,n−1][first,n−1] 里的数去填第 firstfirst 个数,假设待填的数的下标为 ii ,那么填完以后我们将第 ii 个数和第 firstfirst 个数交换,即能使得在填第 first+1first+1 个数的时候 numsnums 数组的[0,first][0,first] 部分为已填过的数,[first+1,n−1][first+1,n−1] 为待填的数,回溯的时候交换回来即能完成撤销操作。举个简单的例子,假设我们有 [2, 5, 8, 9, 10] 这 5 个数要填入,已经填到第 3 个位置,已经填了 [8,9] 两个数,那么这个数组目前为 [8, 9 | 2, 5, 10] 这样的状态,分隔符区分了左右两个部分。假设这个位置我们要填 10 这个数,为了维护数组,我们将 2 和 10 交换,即能使得数组继续保持分隔符左边的数已经填过,右边的待填 [8, 9, 10 | 2, 5] 。当然善于思考的读者肯定已经发现这样生成的全排列并不是按字典序存储在答案数组中的,如果题目要求按字典序输出,那么请还是用标记数组或者其他方法。



6.在两个排列数组中各取一个数,使得两个数的和为 m

参考答案:

思路:

最容易想到的方法是枚举数组中的每一个数 x,寻找数组中是否存在 target - x。

当我们使用遍历整个数组的方式寻找 target - x 时,需要注意到每一个位于 x 之前的元素都已经和 x 匹配过,因此不需要再进行匹配。而每一个元素不能被使用两次,所以我们只需要在 x 后面的元素中寻找 target - x。

代码:

评论区回复 “121”,七月在线干货组最新升级的《2021 大厂最新 AI 面试题 [含答案和解析, 更新到前 121 题]》,免费送!

持续无限期更新大厂最新面试题,AI 干货资料,目前干货组汇总了今年 3 月-6 月份,各大厂面试题。

PDF 部分截图如上


本文地址:https://www.6aiq.com/article/1626372412075
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出