新研究显示,过去的扩展律未将「数据质量」作为一个考量维度。因此,如何权衡「大规模」与「高质量」的数量 - 质量权衡成为了一个备受关注的问题。
该研究团队对异构和数量有限的网络数据进行了研究,并且在扩展数据时考虑了「质量」这个轴。他们通过实验推断出不同质量的数据池各自的参数,进而估计不同池组合的扩展律。
通过这项研究,他们提出了新的扩展律,用于预测给定计算预算下的帕累托最优数据过滤策略。实验结果显示,在计算预算低时,高质量数据更好;而当计算预算高时,数据过滤会造成妨害。
此外,研究团队修正了既有的扩展曲线,以更准确地预测巨大规模数据训练下的模型误差,进一步证明了新的扩展律的可行性。
这一研究的发现可能会对机器学习领域产生深远影响,有助于指导实现最优的数据整编决策,以及在不同计算预算下做出更明智的数据选择。
该研究团队表示,这项研究的技术细节和实验结果可以在原论文中找到,为机器学习领域带来了一次具有里程碑意义的突破。