AI智能推荐题库-试题通 AI智能整理导入题库-试题通
×
首页 题库中心 2025年数字赋能基层自主数据应用建设技能竞赛 题目详情
CB65483FBBB00001F36118C0F2101D22
2025年数字赋能基层自主数据应用建设技能竞赛
331
多选题

在RAG的数据准备阶段主要包括以下哪几项?

A
数据提取
B
文本分割
C
向量化
D
数据入库

答案解析

正确答案:ABCD

解析:

在RAG(Retrieval-Augmented Generation)系统中,数据准备阶段是构建高效检索模块的基础环节,其目标是将原始非结构化或半结构化数据转化为可供向量检索引擎使用的结构化、可索引形式。该阶段具有明确的流程性与依赖性,各缺一不可。以下逐项解析:\n\nA:数据提取 \n正确。这是数据准备的起始步骤,指从各类异构数据源(如PDF、Word、网页、数据库、API等)中识别并抽取原始文本内容。需处理格式解析、编码识别、元数据提取、噪声过滤(如页眉页脚、广告、JavaScript代码)等问题。若提取不完整或失真,后续所有环节质量均会受损。\n\nB:文本分割 \n正确。原始提取的文本通常过长,超出大语言模型上下文窗口或影响检索粒度与精度。文本分割(chunking)将长文本切分为语义相对完整、长度可控的片段(chunks),常见策略包括按字符数、标点、段落、句子或语义边界(如使用LLM进行智能分块)。分割质量直接影响检索的相关性与生成答案的准确性。\n\nC:向量化 \n正确。即对每个文本块(chunk)调用嵌入模型(embedding model,如text-embedding-ada-002、bge系列、m3e等)生成固定维度的稠密向量表示。该过程将离散文本映射至连续向量空间,使语义相似的文本在空间中距离更近,从而支撑后续的近似最近邻(ANN)检索。向量化是连接文本语义与向量检索的核心桥梁。\n\nD:数据入库 \n正确。指将向量化后的文本块及其对应向量、元数据(如来源文件、页码、标题等)持久化存储至向量数据库(如Milvus、Pinecone、Weaviate、Qdrant、Chroma等)或支持向量检索的混合数据库中,并建立索引(如HNSW、IVF、Annoy等)。入库后系统方可执行低延迟、高并发的向量相似性检索。\n\n综上,A→B→C→D构成RAG数据准备阶段的标准技术流水线:数据提取保障输入来源完整性,文本分割优化语义单元粒度,向量化实现语义表征,数据入库完成可检索结构化存储。四者逻辑连贯、环环相扣,共同决定RAG系统的召回质量与响应性能。因此,ABCD均为该阶段的必要组成部分。

相关知识点:

RAG数据准备,提取分割入库

题目纠错
2025年数字赋能基层自主数据应用建设技能竞赛

扫码进入小程序
随时随地练习

相关题目

单选题

依据《中国南方电网有限责任公司信息安全督查管理办法》(Q/CSG218015-2014),各级单位应依据()单位的有关要求,由信息部组织、信息中心(包括分子公司下属各单位信息管理及运行部门)实施,开展针对性的信息安全自查。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),各单位开展信息系统安全整改工作时,应结合()实际情况制定安全整改工作实施方案。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),各单位应该按照信息系统的业务特点,制定()规程,确保对信息系统运行及变更操作过程进行控制。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),办理信息系统安全保护等级备案手续时,应当填写《信息系统安全等级保护备案表》,第三级以上信息系统应当同时提供以下材料()。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),以下对不同等级系统的专家评审要求描述正确的是()。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),定级备案工作按照()原则开展,各单位应落实责任部门、责任人员,保障定级工作顺利进行。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),信息系统终止阶段的主要活动包括()。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),在安全运行与维护阶段,信息系统因需求变化等原因导致局部调整,系统的安全保护等级未发生改变,应从安全运行与维护阶段进入安全设计与实施阶段,重新()安全保护措施,确保满足等级保护的要求。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),信息系统安全等级保护实施的主要阶段和过程主要包括哪几个阶段()。

单选题

依据《中国南方电网有限责任公司信息安全等级保护管理办法》(Q/CSG218016-2014),信息系统生命周期包括哪个几个阶段()。

关闭登录弹窗
专为自学备考人员打造
勾选图标
自助导入本地题库
勾选图标
多种刷题考试模式
勾选图标
本地离线答题搜题
勾选图标
扫码考试方便快捷
勾选图标
海量试题每日更新
波浪装饰图
欢迎登录试题通
可以使用以下方式扫码登陆
APP图标
使用APP登录
微信图标
使用微信登录
试题通小程序二维码
联系电话:
400-660-3606
试题通企业微信二维码