# 东南亚通识SFT数据集 - 数据字典 ## 文件格式 JSONL(JSON Lines),每行一条独立的JSON记录。 --- ## 数据结构 ``` { "messages": [...], "metadata": {...} } ``` --- ## 字段说明 ### 顶层字段 | 字段名 | 类型 | 必填 | 说明 | |--------|------|------|------| | messages | Array | 是 | 对话消息数组,包含用户提问与助手回答 | | metadata | Object | 是 | 元数据对象,包含数据分类与统计信息 | --- ### messages 数组元素 | 字段名 | 类型 | 必填 | 说明 | |--------|------|------|------| | role | String | 是 | 消息角色,取值为 `user`(用户)或 `assistant`(助手) | | content | String | 是 | 消息内容,采用该国官方语言编写 | --- ### metadata 对象 | 字段名 | 类型 | 必填 | 说明 | |--------|------|------|------| | source_domain | String | 是 | 数据所属领域分类 | | question_type | String | 是 | 问题类型分类 | | char_count | Integer | 是 | 整条对话的总字符数 | | answer_char_count | Integer | 是 | 助手回答的字符数 | --- ## 枚举值说明 ### source_domain 领域分类 | 取值 | 说明 | |------|------| | 历史文化 | 历史事件、文化传统、民俗习惯等 | | 历史人文 | 历史人物、人文故事等 | | 法律社会 | 法律制度、社会政策、政治体制等 | | 经济贸易 | 经济发展、贸易政策、商业活动等 | | 地理环境 | 自然地理、行政区划、环境资源等 | | 教育科技 | 教育体系、科技发展等 | | 宗教信仰 | 宗教习俗、信仰体系等 | | 饮食民俗 | 饮食文化、传统节庆等 | ### question_type 问题类型 | 取值 | 说明 | |------|------| | analysis | 分析类问题 | | explanation | 解释类问题 | | causal | 因果关系类问题 | | comparison | 比较类问题 | | factual | 事实类问题 | | analysis/explanation/causal | 复合型问题 | --- ## 数据示例 ```json { "messages": [ { "role": "user", "content": "Hãy giới thiệu về lịch sử chế độ khoa cử ở Việt Nam" }, { "role": "assistant", "content": "Chế độ khoa cử Việt Nam bắt đầu từ năm 1075..." } ], "metadata": { "source_domain": "历史文化", "question_type": "analysis", "char_count": 3855, "answer_char_count": 3563 } } ```