# 数据收集

在AI领域，收集数据是阻碍进展的一大障碍。许多机器学习项目的工作都集中在数据准备上，包括数据的收集、清理、分析、可视化展示以及特征准备。在所有这些步骤中，数据收集是最困难的，原因如下：

首先，当机器学习应用于新领域时，通常没有足够的数据来训练模型。像语言翻译或物体识别等较老的领域，多年来已经积累了大量的数据，但新兴领域则没有这种优势。

此外，随着深度学习的普及，数据需求也在增加。在传统的机器学习中，特征提取占用了大量时间，需要深入了解领域以选择和创建用于训练的特征。而深度学习通过自动识别特征简化了这一过程，减少了数据准备的工作量。然而，这种简化也有代价：深度学习通常需要更多的数据才能表现良好。因此，寻找高效且可扩展的方式来收集数据，特别是对于大型语言模型（LLM），变得比以往任何时候都更加重要。

图1展示了机器学习数据收集的高层次概貌。社区可以通过去中心化的方式贡献的子主题以绿色文字标出。

<figure><img src="https://content.gitbook.com/content/r2PyvL89MTgmGKhg3h05/blobs/oSpgeZyo2Uw9K0OgruVM/image.png" alt=""><figcaption><p>Fig.1 landscape of data collection</p></figcaption></figure>

任何人都可以通过生态系统中的两个dApp，Analytix 和 [xData](https://docs.din.lol/din-cook-data-for-ai/chinese/ru-he-can-yu/xdata-jie-shao)，帮助整个DIN网络收集链上和链下数据。 网络会根据数据质量奖励数据收集节点（数据质量评估标准由网络自动确定，即通过验证节点的帮助实现）。 验证节点是无权限的，这确保了参与网络建设的人越多，整个网络就会越强大。
