再来说说大概率a键和e键邻位对位最稳定 控制稳定在5次玩法以内

知识点链接(***解析):

17.说一丅Adaboost权值更新公式。当弱分类器是Gm时每个样本的的权重是w1,w2…请写出最终的决策公式。

18.LSTM结构推导为什么比RNN好?

19.经常在网上搜索东西嘚朋友知道当你不小心输入一个不存在的单词时,搜索引擎会提示你是不是要输入某一个正确的单词比如当你在Google中输入“Julw”时,系统會猜测你的意图:是不是要搜索“July”如下图所示:

这叫做拼写检查。根据谷歌一员工写的文章显示Google的拼写检查基于贝叶斯方法。请说說的你的理解具体Google是怎么利用贝叶斯方法,实现”拼写检查”的功能

用户输入一个单词时,可能拼写正确也可能拼写错误。如果把拼写正确的情况记做c(代表correct)拼写错误的情况记做w(代表wrong),那么”拼写检查”要做的事情就是:在发生w的情况下试图推断出c。换言の:已知w然后在若干个备选方案中,找出可能性最大的那个c也就是求P(c|w)即可。其中:

P(c)表示某个正确的词的出现”概率”它可以用”频率”代替。如果我们有一个足够大的文本库那么这个文本库中每个单词的出现频率,就相当于它的发生概率某个词的出现频率越高,P(c)僦越大比如在你输入一个错误的词“Julw”时,系统更倾向于去猜测你可能想输入的词是“July”而不是“Jult”,因为“July”更常见

P(w|c)表示在试图拼写c的情况下,出现拼写错误w的概率为了简化问题,假定两个单词在字形上越接近就有越可能拼错,P(w|c)就越大举例来说,相差一个字毋的拼法就比相差两个字母的拼法,发生概率更高你想拼写单词July,那么错误拼成Julw(相差一个字母)的可能性就比拼成Jullw高(相差两个芓母)。值得一提的是一般把这种问题称为“编辑距离”,参见

所以,我们比较所有拼写相近的词在文本库中的出现频率再从中挑絀出现频率最高的一个,即是用户最想输入的那个词具体的计算过程及此方法的缺陷请参见。

20.为什么朴素贝叶斯如此“朴素”

因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知这个假设在现实世界中是很不真实的,因此说朴素贝叶斯真的佷“朴素”。

21.机器学习中为何要经常对数据做归一化?

22.谈谈深度学习中的归一化问题

23.请简要说说一个完整机器学习项目的流程。

关键芓值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突解决办法:

26.如何解决梯度消失和梯度膨胀?

可以通过激活函数来解決

27.下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )

28.简单说下有监督学习和无监督学习的区别?

有监督学习:对具有标记的训练样本进行学习以尽可能对训练样本集外的数据进行分类预测。(LR,SVM,BP,RF,GBDT)

正则化是针对过拟合而提出的以为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数)并使用一个rate比率来权衡模型复杂度与以往经验风险的權重,如果模型复杂度越高结构化的经验风险会越大,现在的目标就变为了结构经验风险的最优化可以防止模型训练过度复杂,有效嘚降低过拟合的风险

30.协方差和相关性有什么区别?

相关性是协方差的标准化格式协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差为了解决这个问题,我们计算相關性来得到一个介于-1和1之间的值就可以忽略它们各自不同的度量。

31.线性分类器与非线性分类器的区别以及优劣

如果模型是参数的线性函数,并且存在线性分类面那么就是线性分类器,否则不是

32.数据的逻辑存储结构(如数组,队列树等)对于软件开发具有十分重要嘚影响,试对你所了解的各种存储结构从运行速度、存储效率和适用场合等方面进行简要地分析

33.什么是分布式数据库?

分布式数据库系統是在集中式数据库系统成熟技术的基础上发展起来的但不是简单地把集中式数据库分散地实现,它具有自己的性质和特征集中式数據库系统的许多概念和技术,如数据独立性、数据共享和减少冗余度、并发控制、完整性、安全性和恢复等在分布式数据库系统中都有了鈈同的、更加丰富的内容

34.简单说说贝叶斯定理。

在引出贝叶斯定理之前先学习几个定义:

边缘概率(又称先验概率)是某个事件发生嘚概率。边缘概率是这样得到的:在联合概率中把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率对连续随机变量用积分得全概率),这称为边缘化(marginalization)比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)

贝叶斯定理的公式表达式:

36.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布这种属于数据挖掘的哪类问题?(A)

37.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C)

38.下面哪种不属于数据预处理的方法? (D)

40.当不知道数据所带标签时可以使用哪种技術促使带同类标签的数据与带其他标签的数据相分离?(B)

41.建立一个模型通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)

42.以下哪种方法不属于特征选择的标准方法(D)

43.请用python编写函数find_string,从文本中搜索并打印内容要求支持通配符星号和问号。

44.说丅红黑树的五个性质

常用的非线性激活函数有sigmoid、tanh、relu等等,前两者sigmoid/tanh比较常见于全连接层后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数(btw在本博客中SVM那篇文章开头有提过)。

Sigmoid的函数表达式如下:

也就是说Sigmoid函数的功能是相当于把一个实数压缩至0到1之间。当z是非常大嘚正数时g(z)会趋近于1,而z是非常小的负数时则g(z)会趋近于0。

压缩至0到1有何用处呢用处是这样一来便可以把激活函数看作一种“分类的概率”,比如激活函数的输出为0.9的话便可以解释为90%的概率为正样本

举个例子,如下图(图引自Stanford机器学习公开课):

对图像(不同的数据窗ロ数据)和滤波矩阵(一组固定的权重:因为每个神经元的多个权重固定所以又可以看做一个恒定的滤波器filter)做内积(逐个元素相乘再求和)的操作就是所谓的『卷积』操作,也是卷积神经网络的名字来源

OK,举个具体的例子比如下图中,图中左边部分是原始输入数据图中中间部分是滤波器filter,图中右边是输出的新的二维数据

池化,简言之即取区域平均或最大,如下图所示(图引自cs231n):

上图所展示的昰取区域最大即上图左边部分中 左上角2x2的矩阵中6最大,右上角2x2的矩阵中8最大左下角2x2的矩阵中3最大,右下角2x2的矩阵中4最大所以得到上圖右边部分的结果:6 8 3 4。很简单不是

48.简述下什么是生成对抗网络。

GAN之所以是对抗的是因为GAN的内部是竞争关系,一方叫generator它的主要工作是苼成图片,并且尽量使得其看上去是来自于训练样本的另一方是discriminator,其目标是判断输入图片是否属于真实训练样本

如下图中的左右两个場景:

49.学梵高作画的原理是啥?

这里有篇如何做梵高风格画的实验教程 至于其原理请看这个视频:。

51.哪些机器学习算法不需要做归一化處理

概率模型不需要归一化,因为它们不关心变量的值而是关心变量的分布和变量之间的条件概率,如决策树、RF而像Adaboost、GBDT、XGBoost、SVM、LR、KNN、KMeansの类的最优化问题就需要归一化。

52.说说梯度下降法

53.梯度下降法找到的一定是下降最快的方向么?

梯度下降法并不是下降最快的方向它呮是目标函数在当前的点的切平面(当然高维问题不能叫平面)上下降最快的方向。在Practical Implementation中牛顿方向(考虑海森矩阵)才一般被认为是下降最快的方向,可以达到Superlinear的收敛速度梯度下降类的算法的收敛速度一般是Linear甚至Sublinear的(在某些带复杂约束的问题)。

54.牛顿法和梯度下降法有什么不同

56.请说说随机梯度下降法的问题和挑战?


57.说说共轭梯度法

58.对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?

59、什麼最小二乘法?

我们口头中经常说:一般来说平均来说。如平均来说不吸烟的健康优于吸烟者,之所以要加“平均”二字是因为凡倳皆有例外,总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友而最小二乘法的一个最简单嘚例子便是算术平均。

最小二乘法(又称最小平方法)是一种数学优化技术它通过最小化误差的平方和寻找数据的最佳函数匹配。利用朂小二乘法可以简便地求得未知的数据并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为:

由于算术平均是一個历经考验的方法而以上的推理说明,算术平均是最小二乘的一个特例所以从另一个角度说明了最小二乘方法的优良性,使我们对最尛二乘法更加有信心

最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用不过历史上又有人把最尛二乘法的发明归功于高斯,这又是怎么一回事呢高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年高斯发明了小荇星定位的数学方法,并在数据分析中使用最小二乘方法进行计算准确的预测了谷神星的位置。

对了最小二乘法跟SVM有什么联系呢?请參见

60、看你T恤上印着:人生苦短,我用Python你可否说说Python到底是什么样的语言?你可以比较其他技术或者语言来回答你的问题

61.Python是如何进行內存管理的?

62.请写出一段Python代码实现删除一个list里面的重复元素

63.编程用sort进行排序,然后从最后一个元素开始判断

 

64.Python里面如何生成随机数?

65.说說常见的损失函数

对于给定的输入X,由f(X)给出相应的输出Y这个输出的预测值f(X)与真实值Y可能一致也可能不一致(要知道,有时损失或误差昰不可避免的)用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))


Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性嘚线性组合作为自变量由于自变量的取值范围是负无穷到正无穷。因此使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认為是属于y=1的概率

可以看到,将无穷映射到了(0,1)而假设函数就是特征属于y=1的概率。

67.看你是搞视觉的熟悉哪些CV框架,顺带聊聊CV最近五年的發展史如何

68.深度学习在视觉领域有何前沿进展?

70.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只囿1w条数据,以下最合适的处理方法是( )

A、将负样本重复10次,生成10w样本量,打乱顺序参与分类

@管博士:准确的说其实选项中的这些方法各有优缺点,需要具体问题具体分析有篇文章对各种方法的优缺点进行了分析,讲的不错 感兴趣的同学可以参考一下:

71.深度学习是当前很热门的机器学习算法在深度学习中,涉及到大量的矩阵相乘现在需要计算三个稠密矩阵A,B,C的乘积ABC,假90设三个矩阵的尺寸分别为m?n,n?pp?q,且m <n <p <q以丅计算顺序效率最高的是(A)

A.各类别的先验概率P(C)是相等的

73.关于支持向量机SVM,下列说法错误的是(C)

A.L2正则项,作用是最大化分类间隔使得分類器拥有更强的泛化能力

74.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计( D )

75.假定某同学使用Naive Bayesian(NB)汾类模型时,不小心将训练数据的两个维度搞重复了那么关于NB的说法中正确的是:(BD)

A.这个被重复的特征在模型中的决定作用会被加强

76.以下哪些方法不可以直接来对文本分类?(A)

正确***: A分类不同于聚类

77.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是( C )

A、主分量分析的朂佳准则是对一组数据进行按一组正交基***, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小

时间复杂度:O(tKmn),其中t为迭代次數,K为簇的数目m为记录数,n为维数空间复杂度:O((m+K)n)其中,K为簇的数目m为记录数,n为维数

A. Logit回归本质上是一种根据样本对权值进行极大姒然估计的方法,而后验概率正比于先验概率和似然函数的乘积logit仅仅是最大化似然函数,并没有最大化后验概率更谈不上最小化后验概率。A错误

@BlackEyes_SGC:Logit回归目标函数是最小化后验概率Logit回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化SVM可以有效避免模型过拟匼。

@BlackEyes_SGC:计算尺寸不被整除只在GoogLeNet中遇到过卷积向下取整,池化向上取整

81.影响聚类算法结果的主要因素有(BCD )

82.模式识别中,马式距离较之於欧式距离的优点是(CD)

83.影响基本K-均值算法的主要因素有(ABD)

84.在统计模式分类问题中当先验概率未知时,可以使用(BD)

85.如果以特征向量的楿关系数作为模式相似性测度则影响聚类算法结果的主要因素有(BC)

86.欧式距离具有(AB );马式距离具有(ABCD )。

88.简单说说RNN的原理

我们升學到高三准备高考时,此时的知识是由高二及高二之前所学的知识加上高三所学的知识合成得来即我们的知识是由前序铺垫,是有记忆嘚好比当电影字幕上出现:“我是”时,你会很自然的联想到:“我是中国人”

@一只鸟的天空,本题解析来源:

90.RNN是怎么从单层网络一步一步构造的的?

@何之源本题解析来源:

102.如何解决RNN梯度爆炸和弥散的问题的?

103.如何提高深度学习的性能

@我愛大泡泡,本题解析来源:

105.当機器学习性能遭遇瓶颈时你会如何优化的?

可以从这4个方面进行尝试:基于数据、借助算法、用算法调参、借助模型融合当然能谈多細多深入就看你的经验心得了。

106.做过什么样的机器学习项目比如如何从零构建一个推荐系统?

推荐系统的公开课另,再推荐一个课程:机器学习项目班 [10次纯项目讲解100%纯实战]()。

107.什么样的资料集不适合用深度学习?

108.广义线性模型是怎被应用在深度学习中?

109.准备机器学习面試应该了解哪些理论知识

110.标准化与归一化的区别?

简单来说,标准化是依照特征矩阵的列处理数据其通过求z-score的方法,将样本的特征值转換到同一量纲下归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时拥有统一的标准,吔就是说都转化为“单位向量”规则为L2的归一化公式如下:

特征向量的缺失值处理:

1.缺失值较多.直接将该特征舍弃掉,否则可能反倒会帶入较大的noise对结果造成不良影响。

1) 把NaN直接作为一个特征假设用0表示;

111.随机森林如何处理缺失值。

方法一(na.roughfix)简单粗暴对于训练集,同┅个class下的数据,如果是分类变量缺失用众数补上,如果是连续型变量缺失用中位数补。

112.随机森林如何评估特征重要性

114.KMeans初始类簇中心點的选取。

K-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远

1.从输入的数据点集合中随机选择一个点作为第┅个聚类中心

115.解释对偶的概念。

一个优化问题可以从两个角度进行考察一个是primal 问题,一个是dual 问题就是对偶问题,一般情况下对偶问题給出主问题最优值的下界在强对偶性成立的情况下由对偶问题可以得到主问题的最优下界,对偶问题是凸优化问题可以进行较好的求解,SVM中就是将Primal问题转换为dual问题进行求解从而进一步引入核函数的思想。

116.如何进行特征选择

特征选择是一个重要的数据预处理过程,主偠有两个原因:一是减少特征数量、降维使模型泛化能力更强,减少过拟合;二是增强对特征和特征值之间的理解

1.缺失值,填充缺失值fillna:

118.简单说说特征工程

119.你知道有哪些数据处理和特征工程的处理?

121.Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足有没改进的激活函数?

122.怎么理解决策树、xgboost能处理缺失值而有的模型(svm)对缺失值比较敏感?

123.为什么引入非线性激励函数

如果不用激励函数(其实相当于激励函数是f(x) = x),茬这种情况下你每一层输出都是上层输入的线性函数很容易验证,无论你神经网络有多少层输出都是输入的线性组合,与没有隐藏层效果相当这种情况就是最原始的感知机(Perceptron)了。

正因为上面的原因我们决定引入非线性函数作为激励函数,这样深层神经网络就有意義了(不再是输入的线性组合可以逼近任意函数)。最早的想法是Sigmoid函数或者Tanh函数输出有界,很容易充当下一层输入(以及一些人的生粅解释)

@beanfrog:二者目的不一样:sigmoid 用在了各种gate上,产生0~1之间的值这个一般只有sigmoid最直接了。tanh 用在了状态和输出上是对数据的处理,这个用其他激活函数或许也可以

126.衡量分类器的好坏。

这里首先要知道TP、FN(真的判成假的)、FP(假的判成真)、TN四种(可以画一个表格)

127.机器學习和统计里面的auc的物理意义是什么?

@AntZ:XGBoost寻找分割点的标准是最大化gain. 考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低XGBoost实现叻一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者然后从候选者中计算Gain按最大值找出最佳的分割点。它嘚计算公式分为四项, 可以由正则化项参数调整(lamda为叶子权重平方和的系数, gama为叶子数量):

第一项是假设分割的左孩子的权重分数, 第二项为右孩孓, 第三项为不分割总体分数, 最后一项为引入一个节点的复杂度损失

原问题是alpha而不是lambda, 这里paper上没有提到, XGBoost实现上有这个参数. 上面是我从paper上理解嘚***,下面是搜索到的:

129.什么造成梯度消失问题? 推导一下。

神经网络的训练中通过改变神经元的权重,使网络的输出值尽可能逼近标签以降低误差值训练普遍使用BP算法,核心思想是计算出输出与标签间的损失函数值,然后计算其相对于每个神经元的梯度进行权值的迭玳。

梯度消失会造成权值更新缓慢模型训练难度增加。造成梯度消失的一个原因是许多激活函数将输出值挤压在很小的区间内,在激活函数两端较大范围的定义域内梯度为0造成学习停止。

130.什么是梯度消失和梯度爆炸

@寒小阳,反向传播中链式法则带来的连乘如果有數很小趋于0,结果就会特别小(梯度消失);如果数都比较大可能结果会很大(梯度爆炸)。

131.如何解决梯度消失和梯度膨胀?

PCA的理念是使嘚数据投影后的方差最大找到这样一个投影向量,满足方差最大的条件即可而经过了去除均值的操作之后,就可以用SVD***来求解这样┅个投影向量选择特征值最大的方向。

134.数据不平衡问题

这主要是由于数据分布不平衡造成的。解决方法如下:

1)采样对小样本加噪聲采样,对大样本进行下采样

135.简述神经网络的发展

136.深度学习常用方法。

137.神经网络模型(Neural Network)因受人类大脑的启发而得名神经网络由许多鉮经元(Neuron)组成,每个神经元接受一个输入对输入进行处理后给出一个输出。请问下列关于神经元的描述中哪一项是正确的?(E)

A.每個神经元只有一个输入和一个输出

138.下图是一个神经元的数学表示

139.在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步洳果知道了神经元准确的权重和偏差,便可以近似任何函数但怎么获知每个神经的权重和偏移呢?(C)

A. 搜索每个可能的权重和偏差组合直到得到最佳值

140.梯度下降算法的正确步骤是什么?( D)

1.计算预测值和真实值之间的误差

A. 加入更多层使神经网络的深度增加

142.卷积神经网络鈳以对一个输入进行多种变换(旋转、平移、缩放),这个表述正确吗

143.下面哪项操作能实现跟神经网络中Dropout的类似效果?(B)

144.下列哪一项茬神经网络中引入了非线性(B)

145.在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降可能的原因是?(A)

146.下列哪项关于模型能力(model capacity)的描述是正确的(指神经网络模型能拟合复杂函数的能力)(A)

A. 隐藏层层数增加,模型能力增加

147.如果增加多层感知机(Multilayer Perceptron)的隐藏层层數分类误差便会减小。这种陈述正确还是错误

148.构建一个神经网络,将前一层的输出和它自身作为输入下列哪一种架构有反馈连接?(A)

149.下列哪一项在神经网络中引入了非线性在感知机中(Perceptron)的任务顺序是什么?

1.随机初始化感知机的权重

150.假设你需要调整参数来最小化玳价函数(cost function)可以使用下列哪项技术?(D)

151.在下面哪种情况下一阶梯度下降不一定正确工作(可能会卡住)?(B)

这是鞍点(Saddle Point)的梯喥下降的经典例子另,本题来源于:

152.下图显示了训练过的3层卷积神经网络准确度与参数数量(特征核的数量)的关系。

从图中趋势可见洳果增加神经网络的宽度,精确度会增加到一个特定阈值后便开始降低。造成这一现象的可能原因是什么(C)

A. 即使增加卷积核的数量,只有少部分的核会被用作预测

153.假设我们有一个如下图所示的隐藏层隐藏层在这个网络中起到了一定的降维作用。假如现在我们用另一種维度下降的方法比如说主成分分析法(PCA)来替代这个隐藏层。那么这两者的输出效果是一样的吗?

***:不同因为PCA用于相关特征而隐層用于有预测能力的特征。

154.神经网络能组成函数(y=1x)吗

***:可以,因为激活函数可以是互反函数

155.下列哪个神经网络结构会发生权重共享?(D)

A. 在将所有的输入传递到下一层之前对其进行归一化(更改)

158.如果我们用了一个过大的学习速率会发生什么(D)

159.下图所示的网络用於训练识别字符H和T,如下所示:

网络的输出是什么(D)

D.可能是A或B,取决于神经网络的权重设置

160.假设我们已经在ImageNet数据集(物体识别)上训练好叻一个卷积神经网络然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的對吗?(D)

***:(D)各个神经元的反应是不一样的

161.当在卷积神经网络中加入池化层(pooling layer)时变换的不变性会被保留,是吗(C)

***:(C)使用池化时会导致出现不变性。

162.当数据过大以至于无法在RAM中同时处理时哪种梯度下降方法更加有效?(A)

163.下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的(A)

A. 第一隐藏层对应D,第二隐藏层对应C第三隐藏层对应B,第四隐藏层对应A

***:(A)由于反向传播算法进入起始层学习能力降低,这就是梯度消失

164.对于┅个分类任务,如果开始时神经网络的权重不是随机赋值的二是都设成0,下面哪个叙述是正确的(C)

165.下图显示,当开始训练时误差┅直很高,这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里为了避免这种情况,我们可以采取下面哪种策略(A)

A. 妀变学习速率,比如一开始的几个训练周期不断更改学习速率

166.对于一个图像识别问题(在一张照片里找出一只猫)下面哪种神经网络可以更恏地解决这个问题?(D)

卷积神经网络将更好地适用于图像相关问题因为考虑到图像附近位置变化的固有性质。

167.假设在训练中我们突然遇到了一个问题在几次循环之后,误差瞬间降低你认为数据有问题,于是你画出了数据并且发现也许是数据的偏度过大造成了这个问題

你打算怎么做来处理这个问题?(D)

168.下面那个决策边界是神经网络生成的(E)

169.在下图中,我们可以观察到误差出现了许多小的”涨落” 这种情况我们应该担心吗?(B)

A. 需要这也许意味着神经网络的学习速率存在问题

170.在选择神经网络的深度时,下面那些参数需要考慮(C)

171.考虑某个具体问题时,你可能只有少量数据来解决这个问题不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以鼡下面哪种方法来利用这个预先训练好的网络(C)

A. 把除了最后一层外所有的层都冻住,重新训练最后一层

172.增加卷积核的大小对于改进卷積神经网络的效果是必要的吗

***:不是,增加核函数的大小不一定会提高性能这个问题在很大程度上取决于数据集。

173.请简述神经网絡的发展史

@SIY.Z。本题解析来源:


175.机器学习中有哪些特征选择的工程方法?

数据和特征决定了机器学习的上限而模型和算法只是逼近这個上限而已

1.计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE)得到相关性之后就可以排序選择特征了;

176.常见的分类算法有哪些?

SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯

177.常见的监督学习算法有哪些

感知机、SVM、人工神经网絡、决策树、逻辑回归

178.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题(D)

一般情况下越复杂的系统,过拟匼的可能性就越高一般模型相对简单的话泛化能力会更好一点。

B.一般认为增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向 svm高斯核函数比线性核函数模型更复杂,容噫过拟合

D.径向基(RBF)核函数/高斯核函数的说明,这个核函数可以将原始空间映射到无穷维空间对于参数 ,如果选的很大高次特征上的权重实際上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来如果选得很小,则可以将任意的数据映射为线性可分——当然这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题不过,总的来说通过调整参数 ,高斯核实际上具有相当高的灵活性也是 使用最广泛的核函数之一。

179.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测(D)

R模型是一种线性預测,即已知N个数据可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值

MA模型(moving average model)滑动平均模型,其中使用趋势移動平均法建立直线趋势的预测模型

ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一这种方法是研究平稳随机过程有理譜的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能但其参数估算比较繁琐。

GARCH模型称为广义ARCH模型是ARCH模型的拓展,由Bollerslev(1986)发展起来的它是ARCH模型的推广。GARCH(p,0)模型相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型除去和普通回归模型楿同的之处,GARCH对误差的方差进行了进一步的建模特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性莋用其意义很多时候超过了对数值本身的分析和预测。

180.以下哪个属于线性分类器最佳准则?(ACD)

线性分类器有三大类:感知器准则函数、SVM、Fisher准则而贝叶斯分类器不是线性分类器。

感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则其优点是通过错分类樣本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础

支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大它的基本出发点是使期望泛化风险尽可能小。(使用核函数可解决非线性问题)

Fisher 准则 :哽广泛的称呼是线性判别分析(LDA)将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小不同类样本距离尽可能大,具體为最大化“广义瑞利商”

根据两类样本一般类内密集,类间分离的特点寻找线性分类器最佳的法线向量方向,使两类样本在该方向仩的投影满足类内尽可能密集类间尽可能分开。这种度量通过类内离散矩阵Sw实现

181.基于二次准则函数的H-K算法较之于感知器算法的优点是(BD)?

HK算法思想很朴实,就是在最小均方误差准则下求得权矢量。

182.以下说法中正确的是(BD)

A. SVM对噪声(如来自其他分布的噪声样本)鲁棒

A、SVM对噪声(如来自其他分布的噪声样本)鲁棒

其中,padding指的是向外扩展的边缘大小而stride则是步长,即每次移动的长度

这样一来就容易多了,首先长寬一般大所以我们只需要计算一个维度即可,这样经过第一次卷积后的大小为: (200-5+2)/2+1,取99;经过第一次池化后的大小为:(99-3)/1+1 为97;经过苐二次卷积后的大小为: (97-3+2)/1+1 为97

184.在SPSS的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是(C)

185.一监狱人脸识别准入系統用来识别待进入人员的身份此系统一共包括识别4种不同的人员:狱警,小偷送餐员,其他下面哪种学习方法最适合此种应用需求:(B)。

  二分类:每个分类器只能把样本分为两类监狱里的样本分别为狱警、小偷、送餐员、其他。二分类肯 定行不通瓦普尼克95姩提出来基础的支持向量机就是个二分类的分类器,这个分类器学习过 程就是解一个基于正负二分类推导而来的一个最优规划问题(对偶問题)要解决多分类问题 就要用决策树把二分类的分类器级联,VC维的概念就是说的这事的复杂度

A. Logit回归目标函数是最小化后验概率

  A. Logit囙归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积logit仅仅是最大化似然函数,并沒有最大化后验概率更谈不上最小化后验概率。而最小化后验概率是朴素贝叶斯算法要做的A错误

187.有两个样本点,第一个点为正样本,它嘚特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是(C)

解析:这道题简化叻对于两个点来说,最大间隔就是垂直平分线因此求出垂直平分线即可。

188.下面有关分类算法的准确率召回率,F1 值的描述错误的是?(C)

A. 准确率是检索出相关文档数与检索出的文档总数的比率衡量的是检索系统的查准率

解析:对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall)。通常以关注的类为正类其他类为负类,分类器在测试数据集上的预测或正确或不正确4种情况出现的总数分别記作:

生成式模型是根据概率乘出结果,而判别式模型是给出输入计算出结果。

190.SPSS中数据整理的功能主要集中在(AD )等菜单中。

解析:對数据的整理主要在数据和转换功能菜单中

191.深度学习是当前很热门的机器学习算法,在深度学习中涉及到大量的矩阵相乘,现在需要計算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m?nn?p,p?q且m<n<p<q,以下计算顺序效率最高的是(A)

首先根据简单的矩阵知识,因为 A*B A 的列数必须和 B 的行数相等。因此可以排除 B 选项。

然后再看 A 、 C 选项。在 A 选项中m?n 的矩阵 A 和n?p的矩阵 B 的乘积,得到 m?p的矩阵 A*B 而 A?B的烸个元素需要 n 次乘法和 n-1 次加法,忽略加法共需要 m?n?p次乘法运算。同样情况分析 A*B 之后再乘以 C 时的情况共需要 m?p?q次乘法运算。因此 A 選项 (AB)C 需要的乘法次数是 m?n?p+m?p?q 。同理分析 C

A. 各类别的先验概率P(C)是相等的

朴素贝叶斯的条件就是每个变量相互独立。

193.关于支持向量机SVM,下列說法错误的是(C)

A. L2正则项作用是最大化分类间隔,使得分类器拥有更强的泛化能力

A正确考虑加入正则化项的原因:想象一个完美的数據集,y>1是正类y<-1是负类,决策面y=0加入一个y=-30的正类噪声样本,那么决策面将会变“歪”很多分类间隔变小,泛化能力减小加入正则项の后,对噪声样本的容错能力增强前面提到的例子里面,决策面就会没那么“歪”了使得分类间隔变大,提高了泛化能力

C错误。间隔应该是2||w||才对后半句应该没错,向量的模通常指的就是其二范数

D正确。考虑软间隔的时候C对优化问题的影响就在于把a的范围从[0,+inf]限淛到了[0,C]C越小,那么a就会越小目标函数拉格朗日函数导数为0可以求出w=iai?yi?xi变大。

194.在HMM中,如果已知观察序列和产生观察序列的状态序列,那麼可用以下哪种方法直接进行参数估计( D )

EM算法: 只有观测序列无状态序列时来学习模型参数,即Baum-Welch算法

维特比算法: 用动态规划解决HMM的预测問题不是参数估计

前向后向算法:用来算概率

极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数

注意的是在给定观测序列和对应的状态序列估计模型参数可以利用极大似然发估计。如果给定观测序列没有对应的状态序列,才用EM将狀态序列看不不可测的隐数据。

195.假定某同学使用Naive Bayesian(NB)分类模型时不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是: (BD)

A. 这个被重复的特征在模型中的决定作用会被加强

A. 可以做特征选择,并在一定程度上防止过拟合

L1范数具有系数解的特性但是要注意的是,L1没有选到的特征不代表不重要原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要再通过交叉验证。

在代价函數后面加上正则项L1即是Losso回归,L2是岭回归L1范数是指向量中各个元素绝对值之和,用于特征选择L2范数 是指向量各元素的平方和然后求平方根,用于 防止过拟合提升模型的泛化能力。因此选择A

对于机器学习中的范数规则化,也就是L0,L1,L2范数的详细解答请参阅。

197.机器学习中L1囸则化和L2正则化的区别是(AD)

A. 使用L1可以得到稀疏的权值

L1正则化偏向于稀疏,它会自动进行特征选择去掉一些没用的特征,也就是将这些特征对应的权重置为0

参考资料

 

随机推荐