司法大模型数据集构造(新)

数据集概览

07/22(belle1格式)

将已构造的数据集长度限制为2048后,采样1%的数据被用作验证集(1774条),剩余数据被用作训练集(176112条)。各个数据集大小详情如下:

Dataset Size
IE_LEVEN 10308
IE_JE 1415
QA_CJRC 38099
QA_LAWGPT_LAWA 56623
QA_LLLAMA_JE 6491
QA_LLLAMA_LA 9659
QA_LLLAMA_LAWA 955
QA_JECQA 23155
QA_YC 27407
ZY_YQZY 3774
Validation (1%) 1774
Training 176112

数据构造详情(llama2格式)