# 数据收集

在AI领域，收集数据是阻碍进展的一大障碍。许多机器学习项目的工作都集中在数据准备上，包括数据的收集、清理、分析、可视化展示以及特征准备。在所有这些步骤中，数据收集是最困难的，原因如下：

首先，当机器学习应用于新领域时，通常没有足够的数据来训练模型。像语言翻译或物体识别等较老的领域，多年来已经积累了大量的数据，但新兴领域则没有这种优势。

此外，随着深度学习的普及，数据需求也在增加。在传统的机器学习中，特征提取占用了大量时间，需要深入了解领域以选择和创建用于训练的特征。而深度学习通过自动识别特征简化了这一过程，减少了数据准备的工作量。然而，这种简化也有代价：深度学习通常需要更多的数据才能表现良好。因此，寻找高效且可扩展的方式来收集数据，特别是对于大型语言模型（LLM），变得比以往任何时候都更加重要。

图1展示了机器学习数据收集的高层次概貌。社区可以通过去中心化的方式贡献的子主题以绿色文字标出。

<figure><img src="/files/gieJGKf7SnwVV1HH7DoY" alt=""><figcaption><p>Fig.1 landscape of data collection</p></figcaption></figure>

任何人都可以通过生态系统中的两个dApp，Analytix 和 [xData](/din-cook-data-for-ai/chinese/ru-he-can-yu/xdata-jie-shao.md)，帮助整个DIN网络收集链上和链下数据。 网络会根据数据质量奖励数据收集节点（数据质量评估标准由网络自动确定，即通过验证节点的帮助实现）。 验证节点是无权限的，这确保了参与网络建设的人越多，整个网络就会越强大。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.din.lol/din-cook-data-for-ai/chinese/din-cao-zuo-yu-jie-shao/comprehensive-network-architecture/exploring-din-an-in-depth-technical-overview/data-collection.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
