AI智能推荐题库-试题通 AI智能整理导入题库-试题通
×
首页 题库中心 人工智能训练师题库 题目详情
CB6C09EC34E00001C0C418901FB11A1A
人工智能训练师题库
4,855
单选题

1076.对于非数值型数据,以下哪个方法可以用来度量数据之间的相似性?

A
欧氏距离
B
皮尔逊相关系数
C
余弦相似度
D
曼哈顿距离

答案解析

正确答案:C

解析:

题目解析: 题干要求判断在非数值型数据中,哪种方法可以用来度量数据之间的相似性。 首先明确“非数值型数据”的含义:指不能直接用实数表示的数据类型,如文本、类别标签、布尔值等。常见的非数值型数据包括文本数据(如文档、句子)、分类变量(如性别、颜色)等。 接下来分析各个选项: A:欧氏距离 欧氏距离用于计算两个点在多维空间中的直线距离,适用于连续的数值型向量。它依赖于各维度上的具体数值大小和差值,因此不适用于非数值型数据。例如,无法直接对两个文本字符串计算欧氏距离。故该选项错误。 B:皮尔逊相关系数 皮尔逊相关系数衡量两个变量之间的线性相关程度,其计算基于均值、协方差和标准差,完全依赖于数值的大小和分布。因此仅适用于数值型数据,尤其要求数据近似服从正态分布。对于非数值型数据无法直接应用。故该选项错误。 C:余弦相似度 余弦相似度通过计算两个向量夹角的余弦值来衡量它们方向上的相似性,常用于高维空间中的向量比较。虽然原始形式作用于数值向量,但非数值型数据(如文本)可以通过向量化方法(如词袋模型、TF-IDF)转化为数值向量后使用余弦相似度进行相似性度量。这使得余弦相似度成为处理非数值数据(尤其是文本)最常用的相似性度量方法之一。因此,在经过适当预处理的前提下,余弦相似度可用于非数值型数据的相似性分析。故该选项正确。 D:曼哈顿距离 曼哈顿距离是各维度绝对差值之和,同样只适用于数值型数据的空间距离计算,无法直接应用于非数值型数据。故该选项错误。 核心知识点讲解: - 相似性度量方法的选择取决于数据类型。 - 数值型数据常用的距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等;相关性度量包括皮尔逊相关系数、斯皮尔曼等级相关等。 - 非数值型数据(特别是文本)通常需先转换为数值向量(如通过TF-IDF或词嵌入),然后使用余弦相似度评估其相似性。余弦相似度关注向量方向而非模长,在文本处理中能有效反映内容的相关性。 综上所述,正确答案为 C:余弦相似度。

相关知识点:

非数值用余弦相似度度量相似性

题目纠错
人工智能训练师题库

扫码进入小程序
随时随地练习

关闭登录弹窗
专为自学备考人员打造
勾选图标
自助导入本地题库
勾选图标
多种刷题考试模式
勾选图标
本地离线答题搜题
勾选图标
扫码考试方便快捷
勾选图标
海量试题每日更新
波浪装饰图
欢迎登录试题通
可以使用以下方式扫码登陆
APP图标
使用APP登录
微信图标
使用微信登录
试题通小程序二维码
联系电话:
400-660-3606
试题通企业微信二维码