单选题
1076.对于非数值型数据,以下哪个方法可以用来度量数据之间的相似性?
A
欧氏距离
B
皮尔逊相关系数
C
余弦相似度
D
曼哈顿距离
答案解析
正确答案:C
解析:
题目解析:
题干要求判断在非数值型数据中,哪种方法可以用来度量数据之间的相似性。
首先明确“非数值型数据”的含义:指不能直接用实数表示的数据类型,如文本、类别标签、布尔值等。常见的非数值型数据包括文本数据(如文档、句子)、分类变量(如性别、颜色)等。
接下来分析各个选项:
A:欧氏距离
欧氏距离用于计算两个点在多维空间中的直线距离,适用于连续的数值型向量。它依赖于各维度上的具体数值大小和差值,因此不适用于非数值型数据。例如,无法直接对两个文本字符串计算欧氏距离。故该选项错误。
B:皮尔逊相关系数
皮尔逊相关系数衡量两个变量之间的线性相关程度,其计算基于均值、协方差和标准差,完全依赖于数值的大小和分布。因此仅适用于数值型数据,尤其要求数据近似服从正态分布。对于非数值型数据无法直接应用。故该选项错误。
C:余弦相似度
余弦相似度通过计算两个向量夹角的余弦值来衡量它们方向上的相似性,常用于高维空间中的向量比较。虽然原始形式作用于数值向量,但非数值型数据(如文本)可以通过向量化方法(如词袋模型、TF-IDF)转化为数值向量后使用余弦相似度进行相似性度量。这使得余弦相似度成为处理非数值数据(尤其是文本)最常用的相似性度量方法之一。因此,在经过适当预处理的前提下,余弦相似度可用于非数值型数据的相似性分析。故该选项正确。
D:曼哈顿距离
曼哈顿距离是各维度绝对差值之和,同样只适用于数值型数据的空间距离计算,无法直接应用于非数值型数据。故该选项错误。
核心知识点讲解:
- 相似性度量方法的选择取决于数据类型。
- 数值型数据常用的距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等;相关性度量包括皮尔逊相关系数、斯皮尔曼等级相关等。
- 非数值型数据(特别是文本)通常需先转换为数值向量(如通过TF-IDF或词嵌入),然后使用余弦相似度评估其相似性。余弦相似度关注向量方向而非模长,在文本处理中能有效反映内容的相关性。
综上所述,正确答案为 C:余弦相似度。
相关知识点:
非数值用余弦相似度度量相似性
题目纠错
人工智能训练师题库
相关题目
单选题
3775.单个谓词是谓词公式
单选题
3774.二次指数平滑法有多期预测能力,短期预测效果较好。
单选题
3773.假设x是含有5个元素的列表,那么切片操作x[10:]是无法执行的,会抛出异常。
单选题
3772.SQLServer性能规格的CPU架构为X86架构,性能规格类型是独享型。
单选题
3771.微服务架构模式下.开发者无法自由选择开发技术来提供API服务
单选题
3770.两个变量相关,它们的相关系数r可能为0。
单选题
3769.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的橙
单选题
3768.模糊推理是不确定性推理中的一种
单选题
3767.感光单元的基本工作原理是当光子撞击到硅原子上时,会产生自由电子,再将这些自由电子收集在一起形成信号。
单选题
3766.图像传感器是一个由N行及M列感光单元(CCDPixel)组成的矩阵。
