相关题目
单选题
大模型训练中"检查点"(Checkpoint)的主要用途不包括:
单选题
混合精度训练(Mixed Precision)通常结合:
单选题
数据并行(Data Parallelism)的核心操作是:
单选题
以下哪项不是模型量化的优点:
单选题
"思维链"(Chain-of-Thought)提示的核心特点是:
单选题
LoRA(Low-Rank Adaptation)微调技术的核心思想是:
单选题
"Few-shot Learning"指模型:
单选题
GPT-3的参数量级约为:
单选题
Transformer架构中"自注意力机制"的核心作用是:
单选题
大语言模型(LLM)的"预训练"阶段主要目标是:
