全球数据量规模(单位:ZB) 原图定位 需要大规模、高质量、多样化的数据集提升模型效果和泛化能力。如2018年GPT-1数据集约4.6GB,2020年GPT-3数据集达到了753GB,而2021年Gopher数据集已达10550GB,2023年GPT-4的数据量更是GPT-3的数十倍以上。