数据规模还是质量，机器学习如何权衡？-金财在线

数据规模还是质量，机器学习如何权衡？拟合样本研究 top 第1张

新研究显示，过去的扩展律未将「数据质量」作为一个考量维度。因此，如何权衡「大规模」与「高质量」的数量 - 质量权衡成为了一个备受关注的问题。

数据规模还是质量，机器学习如何权衡？拟合样本研究 top 第2张

该研究团队对异构和数量有限的网络数据进行了研究，并且在扩展数据时考虑了「质量」这个轴。他们通过实验推断出不同质量的数据池各自的参数，进而估计不同池组合的扩展律。

数据规模还是质量，机器学习如何权衡？拟合样本研究 top 第3张

通过这项研究，他们提出了新的扩展律，用于预测给定计算预算下的帕累托最优数据过滤策略。实验结果显示，在计算预算低时，高质量数据更好；而当计算预算高时，数据过滤会造成妨害。

此外，研究团队修正了既有的扩展曲线，以更准确地预测巨大规模数据训练下的模型误差，进一步证明了新的扩展律的可行性。

这一研究的发现可能会对机器学习领域产生深远影响，有助于指导实现最优的数据整编决策，以及在不同计算预算下做出更明智的数据选择。

该研究团队表示，这项研究的技术细节和实验结果可以在原论文中找到，为机器学习领域带来了一次具有里程碑意义的突破。

数据规模还是质量，机器学习如何权衡？