AI智能推荐题库-试题通 AI智能整理导入题库-试题通
×
首页 题库中心 2025年数字赋能基层自主数据应用建设技能竞赛 题目详情
CB65483FBBB00001F36118C0F2101D22
2025年数字赋能基层自主数据应用建设技能竞赛
331
多选题

需要识别文字与排版并且还需要理解语言的AI,需要下面哪种数据?

A
字形
B
字符编码
C
排版
D
印刷字体

答案解析

正确答案:ABC

解析:

本题考查的是AI在文字识别与语言理解任务中所需的数据类型,属于人工智能与自然语言处理交叉领域的基础知识。\n\n题干明确指出该AI需同时满足两个能力: \n(1)识别文字与排版(即视觉层面的感知能力,属于光学字符识别OCR及文档分析范畴); \n(2)理解语言(即语义层面的处理能力,属于自然语言理解NLP范畴)。\n\n逐项分析选项:\n\nA:字形 —— 正确。 \n字形(glyph shape)指字符在视觉上的具体呈现形态,如“a”的不同书写变体(手写体、宋体、黑体等)。OCR系统必须依赖字形特征进行图像中的字符检测与分类;同时,字形信息也影响排版分析(如字间距、基线对齐)。因此,字形是实现文字识别和排版识别的基础视觉数据。\n\nB:字符编码 —— 正确。 \n字符编码(如Unicode、UTF-8)定义了字符与其二进制表示之间的映射关系。AI在完成文字识别后,需将图像识别结果(像素模式)映射为可计算的符号单元(如U+4F60代表“你”),这是后续语言理解(分词、句法分析、语义建模)的前提。没有字符编码,识别结果无法进入NLP流水线;编码还承载着字符的标准化身份信息(区分全角/半角、中英文标点等),对排版解析(如换行规则、双向文本处理)亦至关重要。\n\nC:排版 —— 正确。 \n排版(layout)指文本在页面或屏幕上的空间组织结构,包括段落划分、标题层级、图文混排、表格区域、阅读顺序(reading order)、对齐方式、缩进、栏布局等。识别排版是实现文档级理解的关键——例如,区分正文与页眉页脚、识别表格中的行列关系、判断标题与下属段落的隶属关系,均依赖排版结构信息。现代文档智能(Document AI)系统(如Google DocAI、LayoutParser)明确将排版结构作为核心输入特征。\n\nD:印刷字体 —— 错误。 \n印刷字体(如宋体、Times New Roman)是字形的具体风格类别,属于字形的子集或实现方式。AI无需直接依赖“字体名称”这一元数据;实际处理中,模型通过学习字形像素/轮廓特征自动泛化不同字体的共性,而非硬编码字体类型。字体信息可能在某些特定场景(如字体识别任务)中有用,但并非文字识别与语言理解的必要数据。题干强调的是“需要”的基础数据,而字体属于可选的辅助信息或输出结果,非必需输入。\n\n综上,正确答案为A、B、C。\n\n核心知识点总结: \n- 文字识别(OCR)依赖底层视觉表征(字形)与符号映射机制(字符编码); \n- 排版识别构成文档结构理解的基础,支撑上下文建模与领域适应(如法律文书、科研论文的结构化解析); \n- 语言理解以编码后的文本序列为输入,但其性能高度依赖前序环节(识别与排版解析)的准确性; \n- 字形、字符编码、排版三者分别对应视觉层、符号层、结构层,共同构成文档智能系统的多粒度输入基础。

相关知识点:

识别理解语言所需数据

题目纠错
2025年数字赋能基层自主数据应用建设技能竞赛

扫码进入小程序
随时随地练习

关闭登录弹窗
专为自学备考人员打造
勾选图标
自助导入本地题库
勾选图标
多种刷题考试模式
勾选图标
本地离线答题搜题
勾选图标
扫码考试方便快捷
勾选图标
海量试题每日更新
波浪装饰图
欢迎登录试题通
可以使用以下方式扫码登陆
APP图标
使用APP登录
微信图标
使用微信登录
试题通小程序二维码
联系电话:
400-660-3606
试题通企业微信二维码