AI先驱Andrew Ng正在呼吁全球向更加以数据为中心的机器学方法转变。他举办了首届以数据为中心的AI数据质量竞赛。许多人认为数据质量占AI工作的80%。

Andrew Ng在他的新闻通讯文章The Batch中写道:“我相信AI社区很快就会像对待构建模型一样,对系统地改善数据产生兴趣。”

通过合成数据采取以数据为中心的方法来开发模型是一个迭代的流程。工程师对完成训练的模型进行评估并确定数据集的改进,然后他们将生成新的数据集并启动新的训练周期。

这个产生数据、训练模型、评估模型并产生更多数据的流程会一直持续到模型符合要求为止。

由于每次迭代中的数据都是在模拟中生成,而不是在现实世界中收集然后标记,因此加快了模型训练的速度。

这些可以大规模生成的数据集以训练工具可以直接使用的格式输出。此功能无需再对数据进行额外的预处理。

关键词: AndrewNg AI