【BAT 机器学习面试题】前 100 题汇总及勘误(上)



转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

AIQ 机器学习大数据 知乎专栏 点击关注

此外,有三点得强调下:

  1. 虽然本系列主要是机器学习、深度学习相关的考题,其他类型的题不多,但不代表应聘机器学习或深度学习的岗位时,公司或面试官就只问这两项,虽说是做数据或 AI 相关,但基本的语言(比如 Python)、编码 coding 能力(对于开发,编码 coding 能力怎么强调都不过分,比如最简单的手写快速排序、手写二分查找)、数据结构、算法、计算机体系结构、操作系统、概率统计等等也必须掌握。对于数据结构和算法,一者 重点推荐前面说的微软面试 100 题系列(后来这个系列整理成了新书《编程之法:面试和算法心得》),二者 多刷 leetcode,看 1000 道题不如实际动手刷 100 道。

  2. 本系列会尽量让考察同一个部分(比如同是模型 / 算法相关的)、同一个方向(比如同是属于最优化的算法)的题整理到一块,为的是让大家做到举一反三、构建完整知识体系,在准备笔试面试的过程中,通过懂一题懂一片。

  3. 本系列每一道题的答案都会确保逻辑清晰、通俗易懂(当你学习某个知识点感觉学不懂时,十有八九不是你不够聪明,十有八九是你所看的资料不够通俗、不够易懂),如有更好意见,欢迎在评论下共同探讨。

【BAT 机器学习面试 1000 题】

1. 请简要介绍下 SVM

  SVM,全称是 support vector machine,中文名叫支持向量机。SVM 是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。

  扩展:这里有篇文章详尽介绍了 SVM 的原理、推导,http://blog.csdn.net/v_july_v/article/details/7624837。

  此外,这里有个视频也是关于 SVM 的推导:http://www.julyedu.com/video/play/18/429


2. 请简要介绍下 tensorflow 的计算图

  @寒小阳:Tensorflow 是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow 中的每一个计算都是计算图上的一个节点,而节点之间的边描述了计算之间的依赖关系。



3. 在 k-means 或 kNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别。

  欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的距离为:

  曼哈顿距离,我们可以定义曼哈顿距离的正式意义为 L1- 距离或城市区块距离,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标(x1, y1)的点 P1 与坐标(x2, y2)的点 P2 的曼哈顿距离为:,要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。 

  通俗来讲,想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”,这也是曼哈顿距离名称的来源, 同时,曼哈顿距离也称为城市街区距离 (City Block distance)。

  另,关于各种距离的比较参看http://blog.csdn.net/v_july_v/article/details/8203674


4. 百度 2015 校招机器学习笔试题

参见http://www.itmian4.com/thread-7042-1-1.html


5. 关于 LR

  @rickjin:把 LR 从头到脚都给讲一遍。建模,现场数学推导,每种解法的原理,正则化,LR 和 maxent 模型啥关系,lr 为啥比线性回归好。有不少会背答案的人,问逻辑细节就糊涂了。原理都会? 那就问工程,并行化怎么做,有几种并行化方式,读过哪些开源的实现。还会,那就准备收了吧,顺便逼问 LR 模型发展历史。

  另外,关于答案这篇文章可以做参考:

http://blog.csdn.net/cyh_24/article/details/50359055.html

http://blog.csdn.net/zouxy09/article/details/20319673

6.overfitting 怎么解决?

  dropout、regularization、batch normalizatin

7.LR 和 SVM 的联系与区别

  @朝阳在望,联系:

  1、LR 和 SVM 都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题) 

  2、两个方法都可以增加不同的正则化项,如 l1、l2 等等。所以在很多实验中,两种算法的结果是很接近的。 
  区别: 1、LR 是参数模型,SVM 是非参数模型。 
  2、从目标函数来看,区别在于逻辑回归采用的是 logistical loss,SVM 采用的是 hinge loss. 这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。 
  3、SVM 的处理方法是只考虑 support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。 
  4、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而 SVM 的理解和优化相对来说复杂一些,SVM 转化为对偶问题后, 分类只需要计算与少数几个支持向量的距离, 这个在进行复杂核函数计算时优势很明显, 能够大大简化模型和计算。 
  5、logic 能做的 svm 能做,但可能在准确率上有问题,svm 能做的 logic 有的做不了。
  来源:http://blog.csdn.net/timcompp/article/details/62237986

8. 说说你知道的核函数

  通常人们会从一些常用的核函数中选择(根据问题和数据的不同,选择不同的参数,实际上就是得到了不同的核函数),例如:

  多项式核,显然刚才我们举的例子是这里多项式核的一个特例(R = 1,d = 2)。虽然比较麻烦,而且没有必要,不过这个核所对应的映射实际上是可以写出来的,该空间的维度是,其中  是原始空间的维度。

  高斯核,这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过,如果选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。下图所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间:

  线性核,这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了 (意思是说,咱们有的时候,写代码,或写公式的时候,只要写个模板或通用表达式,然后再代入不同的核,便可以了,于此,便在形式上统一了起来,不用再分别写一个线性的,和一个非线性的)。

9.LR 与线性回归的区别与联系

  @nishizhen:个人感觉逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在 [0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1] 间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

  @乖乖癞皮狗:逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到 sigmoid 的非线性形式,sigmoid 可以轻松处理 0/1 分类问题。

10. 请问(决策树、Random Forest、Booting、Adaboot)GBDT 和 XGBoost 的区别是什么?
  关于决策树,这里有篇《决策树算法》。而随机森林 Random Forest 是一个包含多个决策树的分类器。至于 AdaBoost,则是英文 "Adaptive Boosting"(自适应增强)的缩写,关于 AdaBoost 可以看下这篇文章《Adaboost 算法的原理与推导》。GBDT(Gradient Boosting Decision Tree),即梯度上升决策树算法,相当于融合决策树和梯度上升 boosting 算法。
  @Xijun LI:xgboost 类似于 gbdt 的优化版,不论是精度还是效率上都有了提升。与 gbdt 相比,具体的优点有:
  1. 损失函数是用泰勒展式二项逼近,而不是像 gbdt 里的就是一阶导数
  2. 对树的结构进行了正则化约束,防止模型过度复杂,降低了过拟合的可能性
  3. 节点分裂的方式不同,gbdt 是用的 gini 系数,xgboost 是经过优化推导后的
  更多详见:https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/

11. 为什么 xgboost 要用泰勒展开,优势在哪里?
  @AntZ:xgboost 使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得二阶倒数形式, 可以在不选定损失函数具体形式的情况下用于算法优化分析. 本质上也就把损失函数的选取和模型算法优化 / 参数选择分开了. 这种去耦合增加了 xgboost 的适用性。


12.xgboost 如何寻找最优特征?是又放回还是无放回的呢?
  @AntZ:xgboost 在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性. xgboost 利用梯度优化模型算法, 样本是不放回的 (想象一个样本连续重复抽出, 梯度来回踏步会不会高兴). 但 xgboost 支持子采样, 也就是每轮计算可以不使用全部样本。

13. 谈谈判别式模型和生成式模型?
  判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。
  生成方法:由数据学习联合概率密度分布函数 P(X,Y), 然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型。
  由生成模型可以得到判别模型,但由判别模型得不到生成模型。
  常见的判别模型有:K 近邻、SVM、决策树、感知机、线性判别分析(LDA)、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场
  常见的生成模型有:朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型(LDA)、限制玻尔兹曼机

14.L1 和 L2 的区别

  L1 范数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 
  比如 向量 A=[1,-1,3], 那么 A 的 L1 范数为 |1|+|-1|+|3|.
  简单总结一下就是: 
  L1 范数: 为 x 向量各个元素绝对值之和。 
  L2 范数: 为 x 向量各个元素平方和的 1/2 次方,L2 范数又称 Euclidean 范数或 Frobenius 范数 

  Lp 范数: 为 x 向量各个元素绝对值 p 次方和的 1/p 次方.
  在支持向量机学习过程中,L1 范数实际是一种对于成本函数求解最优的过程,因此,L1 范数正则化通过向成本函数中添加 L1 范数,使得学习得到的结果满足稀疏化,从而方便人类提取特征。 
  L1 范数可以使权值稀疏,方便特征提取。 
  L2 范数可以防止过拟合,提升模型的泛化能力。

15.L1 和 L2 正则先验分别服从什么分布
  @齐同学:面试中遇到的,L1 和 L2 正则先验分别服从什么分布,L1 是拉普拉斯分布,L2 是高斯分布。

16.CNN 最成功的应用是在 CV,那为什么 NLP 和 Speech 的很多问题也可以用 CNN 解出来?为什么 AlphaGo 里也用了 CNN?这几个不相关的问题的相似性在哪里?CNN 通过什么手段抓住了这个共性?
  @许韩,来源:https://zhuanlan.zhihu.com/p/25005808
Deep Learning -Yann LeCun, Yoshua Bengio & Geoffrey Hinton
Learn TensorFlow and deep learning, without a Ph.D.
The Unreasonable Effectiveness of Deep Learning -LeCun 16 NIPS Keynote
  以上几个不相关问题的相关性在于,都存在局部与整体的关系,由低层次的特征经过组合,组成高层次的特征,并且得到不同特征之间的空间相关性。如下图:低层次的直线/曲线等特征,组合成为不同的形状,最后得到汽车的表示。

  CNN 抓住此共性的手段主要有四个:局部连接/权值共享/池化操作/多层次结构。
局部连接使网络可以提取数据的局部特征;权值共享大大降低了网络的训练难度,一个 Filter 只提取一个特征,在整个图片(或者语音/文本) 中进行卷积;池化操作与多层次结构一起,实现了数据的降维,将低层次的局部特征组合成为较高层次的特征,从而对整个图片进行表示。如下图:

http://blog.csdn.net/v_july_v/article/details/51812459

17. 说一下 Adaboost,权值更新公式。当弱分类器是 Gm 时,每个样本的的权重是 w1,w2…,请写出最终的决策公式。

  给定一个训练数据集 T={(x1,y1), (x2,y2)…(xN,yN)},其中实例,而实例空间,yi 属于标记集合 {-1,+1},Adaboost 的目的就是从训练数据中学习一系列弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器。

Adaboost 的算法流程如下:

  步骤 1. 首先,初始化训练数据的权值分布。每一个训练样本最开始时都被赋予相同的权值:1/N。

  步骤 2. 进行多轮迭代,用 m = 1,2, …, M 表示迭代的第多少轮

  a. 使用具有权值分布 Dm 的训练数据集学习,得到基本分类器(选取让误差率最低的阈值来设计基本分类器):

  b. 计算 Gm(x) 在训练数据集上的分类误差率

  由上述式子可知,Gm(x) 在训练数据集上的误差率 em 就是被 Gm(x) 误分类样本的权值之和。

  c. 计算 Gm(x) 的系数,am 表示 Gm(x) 在最终分类器中的重要程度(目的:得到基本分类器在最终分类器中所占的权重):

  由上述式子可知,em <= 1/2 时,am >= 0,且 am 随着 em 的减小而增大,意味着分类误差率越小的基本分类器在最终分类器中的作用越大。

  d. 更新训练数据集的权值分布(目的:得到样本的新的权值分布),用于下一轮迭代

  使得被基本分类器 Gm(x) 误分类样本的权值增大,而被正确分类样本的权值减小。就这样,通过这样的方式,AdaBoost 方法能“重点关注”或“聚焦于”那些较难分的样本上。

其中,Zm 是规范化因子,使得 Dm+1 成为一个概率分布:

  步骤 3. 组合各个弱分类器

  从而得到最终分类器,如下:

  更多请查看此文:http://blog.csdn.net/v_july_v/article/details/40718799

18.LSTM 结构推导,为什么比 RNN 好?
  推导 forget gate,input gate,cell state, hidden information 等的变化;因为 LSTM 有进有出且当前的 cell informaton 是通过 input gate 控制之后叠加的,RNN 是叠乘,因此 LSTM 可以防止梯度消失或者爆炸

19. 经常在网上搜索东西的朋友知道,当你不小心输入一个不存在的单词时,搜索引擎会提示你是不是要输入某一个正确的单词,比如当你在 Google 中输入“Julw”时,系统会猜测你的意图:是不是要搜索“July”,如下图所示:

  这叫做拼写检查。根据谷歌一员工写的文章 (http://norvig.com/spell-correct.html) 显示,Google 的拼写检查基于贝叶斯方法。请说说的你的理解,具体 Google 是怎么利用贝叶斯方法,实现 "拼写检查" 的功能。

  用户输入一个单词时,可能拼写正确,也可能拼写错误。如果把拼写正确的情况记做 c(代表 correct),拼写错误的情况记做 w(代表 wrong),那么 "拼写检查" 要做的事情就是:在发生 w 的情况下,试图推断出 c。换言之:已知 w,然后在若干个备选方案中,找出可能性最大的那个 c,也就是求的最大值。
  而根据贝叶斯定理,有:

  由于对于所有备选的 c 来说,对应的都是同一个 w,所以它们的 P(w) 是相同的,因此我们只要最大化即可。其中:

  P(c) 表示某个正确的词的出现 "概率",它可以用 "频率" 代替。如果我们有一个足够大的文本库,那么这个文本库中每个单词的出现频率,就相当于它的发生概率。某个词的出现频率越高,P(c) 就越大。比如在你输入一个错误的词“Julw”时,系统更倾向于去猜测你可能想输入的词是“July”,而不是“Jult”,因为“July”更常见。

  P(w|c) 表示在试图拼写 c 的情况下,出现拼写错误 w 的概率。为了简化问题,假定两个单词在字形上越接近,就有越可能拼错,P(w|c) 就越大。举例来说,相差一个字母的拼法,就比相差两个字母的拼法,发生概率更高。你想拼写单词 July,那么错误拼成 Julw(相差一个字母)的可能性,就比拼成 Jullw 高(相差两个字母)。值得一提的是,一般把这种问题称为“编辑距离”,参见http://blog.csdn.net/v_july_v/article/details/8701148#t4

  所以,我们比较所有拼写相近的词在文本库中的出现频率,再从中挑出出现频率最高的一个,即是用户最想输入的那个词。具体的计算过程及此方法的缺陷请参见http://norvig.com/spell-correct.html

20. 为什么朴素贝叶斯如此“朴素”?
  因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。

21. 请大致对比下 plsa 和 LDA 的区别

  pLSA 中,主题分布和词分布确定后,以一定的概率()分别选取具体的主题和词项,生成好文档。而后根据生成好的文档反推其主题分布、词分布时,最终用 EM 算法(极大似然估计思想)求解出了两个未知但固定的参数的值:(由转换而来)和(由转换而来)。

  文档 d 产生主题 z 的概率,主题 z 产生单词 w 的概率都是两个固定的值。

  举个文档 d 产生主题 z 的例子。给定一篇文档 d,主题分布是一定的,比如 {P(zi|d), i = 1,2,3 } 可能就是{0.4,0.5,0.1},表示 z1、z2、z3,这 3 个主题被文档 d 选中的概率都是个固定的值:P(z1|d) = 0.4、P(z2|d) = 0.5、P(z3|d) = 0.1,如下图所示(图截取自沈博 PPT 上):

  但在贝叶斯框架下的 LDA 中,我们不再认为主题分布(各个主题在文档中出现的概率分布)和词分布(各个词语在某个主题下出现的概率分布)是唯一确定的(而是随机变量),而是有很多种可能。但一篇文档总得对应一个主题分布和一个词分布吧,怎么办呢?LDA 为它们弄了两个 Dirichlet 先验参数,这个 Dirichlet 先验为某篇文档随机抽取出某个主题分布和词分布。

  文档 d 产生主题 z(准确的说,其实是 Dirichlet 先验为文档 d 生成主题分布Θ,然后根据主题分布Θ产生主题 z)的概率,主题 z 产生单词 w 的概率都不再是某两个确定的值,而是随机变量。

  还是再次举下文档 d 具体产生主题 z 的例子。给定一篇文档 d,现在有多个主题 z1、z2、z3,它们的主题分布 {P(zi|d), i = 1,2,3 } 可能是{0.4,0.5,0.1},也可能是{0.2,0.2,0.6},即这些主题被 d 选中的概率都不再认为是确定的值,可能是 P(z1|d) = 0.4、P(z2|d) = 0.5、P(z3|d) = 0.1,也有可能是 P(z1|d) = 0.2、P(z2|d) = 0.2、P(z3|d) = 0.6 等等,而主题分布到底是哪个取值集合我们不确定(为什么?这就是贝叶斯派的核心思想,把未知参数当作是随机变量,不再认为是某一个确定的值),但其先验分布是 dirichlet 分布,所以可以从无穷多个主题分布中按照 dirichlet 先验随机抽取出某个主题分布出来。如下图所示(图截取自沈博 PPT 上):

  换言之,LDA 在 pLSA 的基础上给这两参数()加了两个先验分布的参数(贝叶斯化):一个主题分布的先验分布 Dirichlet 分布,和一个词语分布的先验分布 Dirichlet 分布

  综上,LDA 真的只是 pLSA 的贝叶斯版本,文档生成后,两者都要根据文档去推断其主题分布和词语分布,只是用的参数推断方法不同,在 pLSA 中用极大似然估计的思想去推断两未知的固定参数,而 LDA 则把这两参数弄成随机变量,且加入 dirichlet 先验。

更多请参见:http://blog.csdn.net/v_july_v/article/details/41209515

22. 请简要说说 EM 算法

  @tornadomeet,本题解析来源:http://www.cnblogs.com/tornadomeet/p/3395593.html
有时候因为样本的产生和隐含变量有关(隐含变量是不能观察的),而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,这时可以采用 EM 算法来求模型的参数的(对应模型参数个数可能有多个),EM 算法一般分为 2 步:

  E 步:选取一组参数,求出在该参数下隐含变量的条件概率值;

  M 步:结合 E 步求出的隐含变量条件概率,求出似然函数下界函数(本质上是某个期望函数)的最大值。

  重复上面 2 步直至收敛。

  公式如下所示:

 

  M 步公式中下界函数的推导过程:

 

  EM 算法一个常见的例子就是 GMM 模型,每个样本都有可能由 k 个高斯产生,只不过由每个高斯产生的概率不同而已,因此每个样本都有对应的高斯分布(k 个中的某一个),此时的隐含变量就是每个样本对应的某个高斯分布。

  GMM 的 E 步公式如下(计算每个样本对应每个高斯的概率):

 

  更具体的计算公式为:

  M 步公式如下(计算每个高斯的比重,均值,方差这 3 个参数):

   

23.KNN 中的 K 如何选取的?
  关于什么是 KNN,可以查看此文:http://blog.csdn.net/v_july_v/article/details/8203674。KNN 中的 K 值选取对 K 近邻算法的结果会产生重大影响。如李航博士的一书「统计学习方法」上所说:

  1. 如果选择较小的 K 值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K 值的减小就意味着整体模型变得复杂,容易发生过拟合;

  2. 如果选择较大的 K 值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且 K 值的增大就意味着整体的模型变得简单。

  3.K=N,则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的累,模型过于简单,忽略了训练实例中大量有用信息。

  在实际应用中,K 值一般取一个比较小的数值,例如采用交叉验证法(简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的 K 值。

24. 防止过拟合的方法

  过拟合的原因是算法的学习能力过强;一些假设条件(如样本独立同分布)可能是不成立的;训练样本过少不能对整个空间进行分布估计。 
  处理方法有:

  • a. 早停止:如在训练中多次迭代后发现模型性能没有显著提高就停止训练

  • b. 数据集扩增:原有数据增加、原有数据加随机噪声、重采样

  • c. 正则化

  • d. 交叉验证

  • e. 特征选择 / 特征降维

25. 机器学习中,为何要经常对数据做归一化

  @zhanlijun,本题解析来源:http://www.cnblogs.com/LBSer/p/4440590.html

  机器学习模型被互联网行业广泛应用,如排序(参见http://www.cnblogs.com/LBSer/p/4439542.html)、推荐、反作弊、定位(参见 http://www.cnblogs.com/LBSer/p/4020370.html)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面再简单扩展解释下这两点。

1) 归一化为什么能提高梯度下降法求解最优解的速度?

斯坦福机器学习视频做了很好的解释:https://class.coursera.org/ml-003/lecture/21

  如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征 X1 和 X2 的区间相差非常大,X1 区间是 [0,2000],X2 区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;

  而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。

  因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。

  2) 归一化有可能提高精度

  一些分类器需要计算样本之间的距离(如欧氏距离),例如 KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

  3) 归一化的类型

  a. 线性归一化

      

  这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果 max 和 min 不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代 max 和 min。

  b. 标准差标准化

  经过处理的数据符合标准正态分布,即均值为 0,标准差为 1,其转化函数为:

  其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

  c. 非线性归一化

  经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如 log(V, 2) 还是 log(V, 10) 等。

26. 谈谈深度学习中的归一化问题

  详情参见此视频:http://www.julyedu.com/video/play/69/686

27. 哪些机器学习算法不需要做归一化处理?
  概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类的最优化问题就需要归一化。
  @管博士:我理解归一化和标准化主要是为了使计算更方便 比如两个变量的量纲不同 可能一个的数值远大于另一个那么他们同时作为变量的时候 可能会造成数值计算的问题,比如说求矩阵的逆可能很不精确 或者梯度下降法的收敛比较困难,还有如果需要计算欧式距离的话可能 量纲也需要调整 所以我估计 lr 和 knn 保准话一下应该有好处。至于其他的算法 我也觉得如果变量量纲差距很大的话 先标准化一下会有好处。
  @寒小阳:一般我习惯说树形模型,这里说的概率模型可能是差不多的意思。

28. 对于树形结构为什么不需要归一化?
  数值缩放,不影响分裂点位置。因为第一步都是按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。对于线性模型,比如说 LR,我有两个特征,一个是 (0,1) 的,一个是 (0,10000) 的,这样运用梯度下降时候,损失等高线是一个椭圆的形状,这样我想迭代到最优点,就需要很多次迭代,但是如果进行了归一化,那么等高线就是圆形的,那么 SGD 就会往原点迭代,需要的迭代次数较少。
  另外,注意树模型是不能进行梯度下降的,因为树模型是阶跃的,阶跃点是不可导的,并且求导没意义,所以树模型(回归树)寻找最优点事通过寻找最优分裂点完成的。

29. 数据归一化(或者标准化,注意归一化和标准化不同)的原因
  @我愛大泡泡,来源:http://blog.csdn.net/woaidapaopao/article/details/77806273
  要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。

  有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如 SVM)需要归一化。

  有些模型伸缩有与原来等价,如:LR 则不用归一化,但是实际中往往通过迭代求解模型参数,如果目标函数太扁(想象一下很扁的高斯模型)迭代算法会发生不收敛的情况,所以最坏进行数据归一化。

  补充:其实本质是由于 loss 函数不同造成的,SVM 用了欧拉距离,如果一个特征很大就会把其他的维度 dominated。而 LR 可以通过权重调整使得损失函数不变。

30. 请简要说说一个完整机器学习项目的流程
  @寒小阳、龙心尘
  1 抽象成数学问题
  明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。
  这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。
  2 获取数据
  数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。
  数据要有代表性,否则必然会过拟合。
  而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。
  而且还要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出其对内存的消耗程度,判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大,那就要考虑分布式了。
  3 特征预处理与特征选择
  良好的数据要能够提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤,往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等,数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制,收益稳定可预期,是机器学习的基础必备步骤。
  筛选出显著特征、摒弃非显著特征,需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了,非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术,如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。
  4 训练模型与调优
  直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的(超)参数,使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入,就越能发现问题的症结,提出良好的调优方案。
  5 模型诊断
  如何确定模型调优的方向与思路呢?这就需要对模型进行诊断的技术。
过拟合、欠拟合 判断是模型诊断中至关重要的一步。常见的方法如交叉验证,绘制学习曲线等。过拟合的基本调优思路是增加数据量,降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量,增加模型复杂度。
  误差分析 也是机器学习至关重要的步骤。通过观察误差样本,全面分析误差产生误差的原因: 是参数的问题还是算法选择的问题,是特征的问题还是数据本身的问题……
诊断后的模型需要进行调优,调优后的新模型需要重新进行诊断,这是一个反复迭代不断逼近的过程,需要不断地尝试, 进而达到最优状态。
**  **6 模型融合
  一般来说,模型融合后都能使得效果有一定提升。而且效果很好。
工程上,主要提升算法准确度的方法是分别在模型的前端(特征清洗和预处理,不同的采样模式)与后端(模型融合)上下功夫。因为他们比较标准可复制,效果比较稳定。而直接调参的工作不会很多,毕竟大量数据训练起来太慢了,而且效果难以保证。
  7 上线运行
  这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向,模型在线上运行的效果直接决定模型的成败。 不单纯包括其准确程度、误差等情况,还包括其运行的速度 (时间复杂度)、资源消耗程度(空间复杂度)、稳定性是否可接受。
  这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明,只有大家自己多实践,多积累项目经验,才会有自己更深刻的认识。
  故,基于此,七月在线每一期 ML 算法班都特此增加特征工程、模型调优等相关课。比如,这里有个公开课视频http://www.julyedu.com/video/play/18/186

31. 逻辑斯特回归为什么要对特征进行离散化
  @严林,本题解析来源:https://www.zhihu.com/question/31989952

  在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列 0、1 特征交给逻辑回归模型,这样做的优势有以下几点:

  0. 离散特征的增加和减少都很容易,易于模型的快速迭代;

  1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;

  2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄 >30 是 1,否则 0。如果特征没有离散化,一个异常数据“年龄 300 岁”会给模型造成很大的干扰;

  3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为 N 个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;

  4. 离散化后可以进行特征交叉,由 M+N 个变量变为 M*N 个变量,进一步引入非线性,提升表达能力;

  5. 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30 作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;

  6. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

  李沐曾经说过:模型是使用离散特征还是连续特征,其实是一个“海量离散特征 + 简单模型” 同 “少量连续特征 + 复杂模型”的权衡。既可以离散化用线性模型,也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说,前者容易,而且可以 n 个人一起并行做,有成功经验;后者目前看很赞,能走多远还须拭目以待。

32.new 和 malloc 的区别
  @Sommer_Xia,来源:http://blog.csdn.net/shymi1991/article/details/39432775
  1. malloc 与 free 是 C++/C 语言的标准库函数,new/delete 是 C 的运算符。它们都可用于申请动态内存和释放内存。
  2. 对于非内部数据类型的对象而言,光用 maloc/free 无法满足动态对象的要求。对象在创建的同时要自动执行构造函数,对象在消亡之前要自动执行析构函数。由于 malloc/free 是库函数而不是运算符,不在编译器控制权限之内,不能够把执行构造函数和析构函数的任务强加于 malloc/free。
  3. 因此 C 语言需要一个能完成动态内存分配和初始化工作的运算符 new,以一个能完成清理与释放内存工作的运算符 delete。注意 new/delete 不是库函数。
  4. C++ 程序经常要调用 C 函数,而 C 程序只能用 malloc/free 管理动态内存

33.hash 冲突及解决办法
  @Sommer_Xia,来源:http://blog.csdn.net/shymi1991/article/details/39432775
  关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法:
  1)开放定址法:当冲突发生时,使用某种探查 (亦称探测) 技术在散列表中形成一个探查 (测) 序列。沿此序列逐个单元地查找,直到找到给定 的关键字,或者碰到一个开放的地址 (即该地址单元为空) 为止(若要插入,在探查到开放的地址,则可将待插入的新结点存人该地址单元)。查找时探查到开放的 地址则表明表中无待查的关键字,即查找失败。
  2) 再哈希法:同时构造多个不同的哈希函数。
  3)链地址法:将所有哈希地址为 i 的元素构成一个称为同义词链的单链表,并将单链表的头指针存在哈希表的第 i 个单元中,因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。
  4)建立公共溢出区:将哈希表分为基本表和溢出表两部分,凡是和基本表发生冲突的元素,一律填入溢出表。

34. 下列哪个不属于 CRF 模型对于 HMM 和 MEMM 模型的优势(B )
A. 特征灵活  B. 速度快  C. 可容纳较多上下文信息  D. 全局最优
  首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型) 都常用来做序列标注的建模.
隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择
  最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉
  条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

35. 什么是熵

  从名字上来看,熵给人一种很玄乎,不知道是啥的感觉。其实,熵的定义很简单,即用来表示随机变量的不确定性。之所以给人玄乎的感觉,大概是因为为何要取这样的名字,以及怎么用。

  熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。

熵的引入

  事实上,熵的英文原文为 entropy,最初由德国物理学家鲁道夫·克劳修斯提出,其表达式为:

  它表示一个系系统在不受外部干扰时,其内部最稳定的状态。后来一中国学者翻译 entropy 时,考虑到 entropy 是能量 Q 跟温度 T 的商,且跟火有关,便把 entropy 形象的翻译成“熵”。

  我们知道,任何粒子的常态都是随机运动,也就是 "无序运动",如果让粒子呈现 "有序化",必须耗费能量。所以,温度(热能)可以被看作 "有序化" 的一种度量,而 "熵" 可以看作是 "无序化" 的度量。

  如果没有外部能量输入,封闭系统趋向越来越混乱(熵越来越大)。比如,如果房间无人打扫,不可能越来越干净(有序化),只可能越来越乱(无序化)。而要让一个系统变得更有序,必须有外部能量的输入。

  1948 年,香农 Claude E. Shannon 引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。

  更多请查看http://blog.csdn.net/v_july_v/article/details/40508465

36. 熵、联合熵、条件熵、相对熵、互信息的定义

  为了更好的理解,需要了解的概率必备知识有:

  1. 大写字母 X 表示随机变量,小写字母 x 表示随机变量 X 的某个具体的取值;

  2.P(X) 表示随机变量 X 的概率分布,P(X,Y) 表示随机变量 X、Y 的联合概率分布,P(Y|X) 表示已知随机变量 X 的情况下随机变量 Y 的条件概率分布;

  3.p(X = x) 表示随机变量 X 取某个具体值的概率,简记为 p(x);

  4.p(X = x, Y = y) 表示联合概率,简记为 p(x,y),p(Y = y|X = x) 表示条件概率,简记为 p(y|x),且有:p(x,y) = p(x) * p(y|x)。

  熵:如果一个随机变量 X 的可能取值为 X = {x1, x2,…, xk},其概率分布为 P(X = xi) = pi(i = 1,2, …, n),则随机变量 X 的熵定义为:

    

  把最前面的负号放到最后,便成了:

  上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思(这两个公式在下文中都会用到)。

  联合熵:两个随机变量 X,Y 的联合分布,可以形成联合熵 Joint Entropy,用 H(X,Y) 表示。
  条件熵:在随机变量 X 发生的前提下,随机变量 Y 发生所新带来的熵定义为 Y 的条件熵,用 H(Y|X) 表示,用来衡量在已知随机变量 X 的条件下随机变量 Y 的不确定性。

  且有此式子成立:H(Y|X) = H(X,Y) – H(X),整个式子表示 (X,Y) 发生所包含的熵减去 X 单独发生包含的熵。至于怎么得来的请看推导:

     简单解释下上面的推导过程。整个式子共 6 行,其中

  第二行推到第三行的依据是边缘分布 p(x) 等于联合分布 p(x,y) 的和;

  第三行推到第四行的依据是把公因子 logp(x) 乘进去,然后把 x,y 写在一起;

  第四行推到第五行的依据是:因为两个 sigma 都有 p(x,y),故提取公因子 p(x,y) 放到外边,然后把里边的 -(log p(x,y) - log p(x))写成 - log (p(x,y)/p(x) ) ;

  第五行推到第六行的依据是:p(x,y) = p(x) * p(y|x),故 p(x,y) / p(x) =  p(y|x)。

  相对熵:又称互熵,交叉熵,鉴别信息,Kullback 熵,Kullback-Leible 散度等。设 p(x)、q(x) 是 X 中取值的两个概率分布,则 p 对 q 的相对熵是:

  在一定程度上,相对熵可以度量两个随机变量的“距离”,且有 D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q) 是必然大于等于 0 的。

  互信息:两个随机变量 X,Y 的互信息定义为 X,Y 的联合分布和各自独立分布乘积的相对熵,用 I(X,Y) 表示:

  且有 I(X,Y)=D(P(X,Y) || P(X)P(Y))。下面,咱们来计算下 H(Y)-I(X,Y) 的结果,如下:

  通过上面的计算过程,我们发现竟然有 H(Y)-I(X,Y) = H(Y|X)。故通过条件熵的定义,有:H(Y|X) = H(X,Y) - H(X),而根据互信息定义展开得到 H(Y|X) = H(Y) - I(X,Y),把前者跟后者结合起来,便有 I(X,Y)= H(X) + H(Y) - H(X,Y),此结论被多数文献作为互信息的定义。更多请查看http://blog.csdn.net/v_july_v/article/details/40508465

37. 什么是最大熵

  熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为 0。如果没有外界干扰,随机变量总是趋向于无序,在经过足够时间的稳定演化,它应该能够达到的最大程度的熵。  

  为了准确的估计随机变量的状态,我们一般习惯性最大化熵,认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。换言之,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。

  例如,投掷一个骰子,如果问 "每个面朝上的概率分别是多少",你会说是等概率,即各点出现的概率均为 1/6。因为对这个 "一无所知" 的色子,什么都不确定,而假定它每一个朝上概率均等则是最合理的做法。从投资的角度来看,这是风险最小的做法,而从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大。

  3.1 无偏原则

  下面再举个大多数有关最大熵模型的文章中都喜欢举的一个例子。

  例如,一篇文章中出现了“学习”这个词,那这个词是主语、谓语、还是宾语呢?换言之,已知“学习”可能是动词,也可能是名词,故“学习”可以被标为主语、谓语、宾语、定语等等。

  令 x1 表示“学习”被标为名词, x2 表示“学习”被标为动词。

  令 y1 表示“学习”被标为主语, y2 表示被标为谓语, y3 表示宾语, y4 表示定语。

  且这些概率值加起来的和必为 1,即 , 则根据无偏原则,认为这个分布中取各个值的概率是相等的,故得到:

  因为没有任何的先验知识,所以这种判断是合理的。如果有了一定的先验知识呢?

  即进一步,若已知:“学习”被标为定语的可能性很小,只有 0.05,即,剩下的依然根据无偏原则,可得:

  再进一步,当“学习”被标作名词 x1 的时候,它被标作谓语 y2 的概率为 0.95,即

,此时仍然需要坚持无偏见原则,使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布?

  实践经验和理论计算都告诉我们,在完全无约束状态下,均匀分布等价于熵最大(有约束的情况下,不一定是概率相等的均匀分布。 比如,给定均值和方差,熵最大的分布就变成了正态分布 )。

  于是,问题便转化为了:计算 X 和 Y 的分布,使得 H(Y|X) 达到最大值,并且满足下述条件:

  因此,也就引出了最大熵模型的本质,它要解决的问题就是已知 X,计算 Y 的概率,且尽可能让 Y 的概率最大(实践中,X 可能是某单词的上下文信息,Y 是该单词翻译成 me,I,us、we 的各自概率),从而根据已有信息,尽可能最准确的推测未知信息,这就是最大熵模型所要解决的问题。

  相当于已知 X,计算 Y 的最大可能的概率,转换成公式,便是要最大化下述式子 H(Y|X):

  且满足以下 4 个约束条件:

38. 简单说下有监督学习和无监督学习的区别
  有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。(LR,SVM,BP,RF,GBDT)
  无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。(KMeans,DL)

39. 了解正则化么
  正则化是针对过拟合而提出的,以为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数),并使用一个 rate 比率来权衡模型复杂度与以往经验风险的权重,如果模型复杂度越高,结构化的经验风险会越大,现在的目标就变为了结构经验风险的最优化,可以防止模型训练过度复杂,有效的降低过拟合的风险。
  奥卡姆剃刀原理,能够很好的解释已知数据并且十分简单才是最好的模型。

40. 协方差和相关性有什么区别?
  相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。为了解决这个问题,我们计算相关性来得到一个介于 -1 和 1 之间的值,就可以忽略它们各自不同的度量。

41. 线性分类器与非线性分类器的区别以及优劣
  如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。
  常见的线性分类器有:LR, 贝叶斯分类,单层感知机、线性回归
  常见的非线性分类器:决策树、RF、GBDT、多层感知机
  SVM 两种都有 (看线性核还是高斯核)
  线性分类器速度快、编程方便,但是可能拟合效果不会很好
  非线性分类器编程复杂,但是效果拟合能力强

882f8fd1849249f09d66948b918efd10.png

**
43. 什么是分布式数据库?**
分布式数据库系统是在集中式数据库系统成熟技术的基础上发展起来的,但不是简单地把集中式数据库分散地实现,它具有自己的性质和特征。集中式数据库系统的许多概念和技术,如数据独立性、数据共享和减少冗余度、并发控制、完整性、安全性和恢复等在分布式数据库系统中都有了不同的、更加丰富的内容。

44. 简单说说贝叶斯定理。
  在引出贝叶斯定理之前,先学习几个定义:

  • 条件概率(又称后验概率)就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件概率表示为 P(A|B),读作“在 B 条件下 A 的概率”。

比如,在同一个样本空间Ω中的事件或者子集 A 与 B,如果随机从Ω中选出的一个元素属于 B,那么这个随机选择的元素还属于 A 的概率就定义为在 B 的前提下 A 的条件概率,所以:P(A|B) = |A∩B|/|B|,接着分子、分母都除以 |Ω| 得到

  联合概率表示两个事件共同发生的概率。A 与 B 的联合概率表示为或者

  边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如 A 的边缘概率表示为 P(A),B 的边缘概率表示为 P(B)。 

  接着,考虑一个问题:P(A|B) 是在 B 发生的情况下 A 发生的可能性。

  1. 首先,事件 B 发生之前,我们对事件 A 的发生有一个基本的概率判断,称为 A 的先验概率,用 P(A) 表示;

  2. 其次,事件 B 发生之后,我们对事件 A 的发生概率重新评估,称为 A 的后验概率,用 P(A|B) 表示;

  3. 类似的,事件 A 发生之前,我们对事件 B 的发生有一个基本的概率判断,称为 B 的先验概率,用 P(B) 表示;

  4. 同样,事件 A 发生之后,我们对事件 B 的发生概率重新评估,称为 B 的后验概率,用 P(B|A) 表示。

  贝叶斯定理便是基于下述贝叶斯公式:

  上述公式的推导其实非常简单,就是从条件概率推出。

  根据条件概率的定义,在事件 B 发生的条件下事件 A 发生的概率是

  同样地,在事件 A 发生的条件下事件 B 发生的概率

  整理与合并上述两个方程式,便可以得到:

  接着,上式两边同除以 P(B),若 P(B) 是非零的,我们便可以得到贝叶斯定理的公式表达式:

  所以,贝叶斯公式可以直接根据条件概率的定义直接推出。即因为 P(A,B) = P(A)P(B|A) = P(B)P(A|B),所以 P(A|B) = P(A)P(B|A)  / P(B)。更多请参见此文http://blog.csdn.net/v_july_v/article/details/40984699

45.#include 和 #include“filename.h”有什么区别?
  用 #include 格式来引用标准库的头文件(编译器将从标准库目录开始搜索)。
  用 #include “filename.h” 格式来引用非标准库的头文件(编译器将从用户的工作目录开始搜索)。

 

46. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)

A. 关联规则发现       B. 聚类       C. 分类               D. 自然语言处理

47. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
A. 频繁模式挖掘     B. 分类和预测     C. 数据预处理     D. 数据流挖掘

48. 下面哪种不属于数据预处理的方法? (D)
A 变量代换   B 离散化  C 聚集 D 估计遗漏值 

49. 什么是 KDD? (A)
A. 数据挖掘与知识发现    B. 领域知识发现    C. 文档知识发现      D. 动态知识发现

50. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)
A. 分类       B. 聚类      C. 关联分析      D. 隐马尔可夫链

51. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)
A. 根据内容检索    B. 建模描述    C. 预测建模  D. 寻找模式和规则

52. 以下哪种方法不属于特征选择的标准方法: (D)
A 嵌入  B 过滤    C  包装   D  抽样      

53. 请用 python 编写函数 find_string,从文本中搜索并打印内容,要求支持通配符星号和问号。
  例子:

  >>>find_string(‘hello\nworld\n’,‘wor’)
  [‘wor’]
  >>>find_string(‘hello\nworld\n’,‘l*d’)
  [‘ld’]
  >>>find_string(‘hello\nworld\n’,‘o.’)
  [‘or’]
  答案
  def find_string(str,pat):
  import re
  return re.findall(pat,str,re.I) 

54. 说下红黑树的五个性质
  红黑树,一种二叉查找树,但在每个结点上增加一个存储位表示结点的颜色,可以是 Red 或 Black。
  通过对任何一条从根到叶子的路径上各个结点着色方式的限制,红黑树确保没有一条路径会比其他路径长出俩倍,因而是接近平衡的。
  红黑树,作为一棵二叉查找树,满足二叉查找树的一般性质。下面,来了解下 二叉查找树的一般性质。
  二叉查找树,也称有序二叉树(ordered binary tree),或已排序二叉树(sorted binary tree),是指一棵空树或者具有下列性质的二叉树:
  若任意节点的左子树不空,则左子树上所有结点的值均小于它的根结点的值;
  若任意节点的右子树不空,则右子树上所有结点的值均大于它的根结点的值;
  任意节点的左、右子树也分别为二叉查找树。
  没有键值相等的节点(no duplicate nodes)。
  因为一棵由 n 个结点随机构造的二叉查找树的高度为 lgn,所以顺理成章,二叉查找树的一般操作的执行时间为 O(lgn)。但二叉查找树若退化成了一棵具有 n 个结点的线性链后,则这些操作最坏情况运行时间为 O(n)。
  红黑树虽然本质上是一棵二叉查找树,但它在二叉查找树的基础上增加了着色和相关的性质使得红黑树相对平衡,从而保证了红黑树的查找、插入、删除的时间复杂度最坏为 O(log n)。
  但它是如何保证一棵 n 个结点的红黑树的高度始终保持在 logn 的呢?这就引出了红黑树的 5 个性质:
  每个结点要么是红的要么是黑的。  
  根结点是黑的。  
  每个叶结点(叶结点即指树尾端 NIL 指针或 NULL 结点)都是黑的。  
  如果一个结点是红的,那么它的两个儿子都是黑的。  
  对于任意结点而言,其到叶结点树尾端 NIL 指针的每条路径都包含相同数目的黑结点。 
  正是红黑树的这 5 条性质,使一棵 n 个结点的红黑树始终保持了 logn 的高度,从而也就解释了上面所说的“红黑树的查找、插入、删除的时间复杂度最坏为 O(log n)”这一结论成立的原因。更多请参见此文:http://blog.csdn.net/v_july_v/article/details/6105630

55. 简单说下 sigmoid 激活函数

  常用的非线性激活函数有 sigmoid、tanh、relu 等等,前两者 sigmoid/tanh 比较常见于全连接层,后者 relu 常见于卷积层。这里先简要介绍下最基础的 sigmoid 函数(btw,在本博客中 SVM 那篇文章开头有提过)。

  sigmoid 的函数表达式如下

  其中 z 是一个线性组合,比如 z 可以等于:b +  + 。通过代入很大的正数或很小的负数到 g(z) 函数中可知,其结果趋近于 0 或 1。

  因此,sigmoid 函数 g(z) 的图形表示如下( 横轴表示定义域 z,纵轴表示值域 g(z) ):

  也就是说,sigmoid 函数的功能是相当于把一个实数压缩至 0 到 1 之间。当 z 是非常大的正数时,g(z) 会趋近于 1,而 z 是非常小的负数时,则 g(z) 会趋近于 0。

  压缩至 0 到 1 有何用处呢?用处是这样一来便可以把激活函数看作一种“分类的概率”,比如激活函数的输出为 0.9 的话便可以解释为 90% 的概率为正样本。

  举个例子,如下图(图引自 Stanford 机器学习公开课)

  z = b +  + ,其中 b 为偏置项 假定取 -30,都取为 20

  如果 = 0  = 0,则 z = -30,g(z) = 1/(1 + e^-z ) 趋近于 0。此外,从上图 sigmoid 函数的图形上也可以看出,当 z=-30 的时候,g(z) 的值趋近于 0

  如果 = 0  = 1,或 =1  = 0,则 z = b +  +  = -30 + 20 = -10,同样,g(z) 的值趋近于 0

  如果 = 1  = 1,则 z = b +  +  = -30 + 201 + 201 = 10,此时,g(z) 趋近于 1。

  换言之,只有都取 1 的时候,g(z)→1,判定为正样本;取 0 的时候,g(z)→0,判定为负样本,如此达到分类的目的。

56. 什么是卷积

  对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重:因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器 filter)做内积(逐个元素相乘再求和)的操作就是所谓的『卷积』操作,也是卷积神经网络的名字来源。

  非严格意义上来讲,下图中红框框起来的部分便可以理解为一个滤波器,即带着一组固定权重的神经元。多个滤波器叠加便成了卷积层。

  OK,举个具体的例子。比如下图中,图中左边部分是原始输入数据,图中中间部分是滤波器 filter,图中右边是输出的新的二维数据。

  分解下上图

对应位置上是数字先相乘后相加 =

  中间滤波器 filter 与数据窗口做内积,其具体计算过程则是:40 + 00 + 00 + 00 + 01 + 01 + 00 + 01 + -4*2 = -8

57. 什么是 CNN 的池化 pool 层

  池化,简言之,即取区域平均或最大,如下图所示(图引自 cs231n)

  上图所展示的是取区域最大,即上图左边部分中 左上角 2x2 的矩阵中 6 最大,右上角 2x2 的矩阵中 8 最大,左下角 2x2 的矩阵中 3 最大,右下角 2x2 的矩阵中 4 最大,所以得到上图右边部分的结果:6 8 3 4。很简单不是?

58. 简述下什么是生成对抗网络
  GAN 之所以是对抗的,是因为 GAN 的内部是竞争关系,一方叫 generator,它的主要工作是生成图片,并且尽量使得其看上去是来自于训练样本的。另一方是 discriminator,其目标是判断输入图片是否属于真实训练样本。
  更直白的讲,将 generator 想象成假币制造商,而 discriminator 是警察。generator 目的是尽可能把假币造的跟真的一样,从而能够骗过 discriminator,即生成样本并使它看上去好像来自于真实训练样本一样。

  如下图中的左右两个场景:

  更多请参见此课程:https://www.julyedu.com/course/getDetail/83

59. 学梵高作画的原理是啥
  这里有篇如何做梵高风格画的实验教程《教你从头到尾利用 DL 学梵高作画:GTX 1070 cuda 8.0 tensorflow gpu 版》,至于其原理请看这个视频:NeuralStyle 艺术化图片(学梵高作画背后的原理)。


60. 现在有 a 到 z 26 个元素, 编写程序打印 a 到 z 中任取 3 个元素的组合(比如 打印 a b c ,d y z 等)

  解析参考:http://blog.csdn.net/lvonve/article/details/53320680

有好的见解或者面试题目欢迎在评论区留言,一起交流探讨。

欢迎转发,让更多小伙伴受益



更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com