数据规模还是质量,机器学习如何权衡?

科技 2024-05-20 16:12 阅读:

数据规模还是质量,机器学习如何权衡? 拟合 样本 研究 top 第1张

新研究显示,过去的扩展律未将「数据质量」作为一个考量维度。因此,如何权衡「大规模」与「高质量」的数量 - 质量权衡成为了一个备受关注的问题。

数据规模还是质量,机器学习如何权衡? 拟合 样本 研究 top 第2张

该研究团队对异构和数量有限的网络数据进行了研究,并且在扩展数据时考虑了「质量」这个轴。他们通过实验推断出不同质量的数据池各自的参数,进而估计不同池组合的扩展律。

数据规模还是质量,机器学习如何权衡? 拟合 样本 研究 top 第3张

通过这项研究,他们提出了新的扩展律,用于预测给定计算预算下的帕累托最优数据过滤策略。实验结果显示,在计算预算低时,高质量数据更好;而当计算预算高时,数据过滤会造成妨害。

此外,研究团队修正了既有的扩展曲线,以更准确地预测巨大规模数据训练下的模型误差,进一步证明了新的扩展律的可行性。

这一研究的发现可能会对机器学习领域产生深远影响,有助于指导实现最优的数据整编决策,以及在不同计算预算下做出更明智的数据选择。

该研究团队表示,这项研究的技术细节和实验结果可以在原论文中找到,为机器学习领域带来了一次具有里程碑意义的突破。