> For the complete documentation index, see [llms.txt](https://docs.din.lol/din-cook-data-for-ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.din.lol/din-cook-data-for-ai/korean/din-1/exploring-din-an-in-depth-technical-overview/data-collection.md).

# 데이터 수집

AI에서 데이터를 수집하는 것은 진행을 지연시키는 큰 장애물입니다. 많은 머신러닝 프로젝트의 작업은 데이터를 준비하는 것입니다. 여기에는 수집, 정리, 분석, 시각화 및 특징 준비가 포함됩니다. 이 중에서 데이터를 수집하는 것은 몇 가지 이유로 가장 어려운 단계입니다.

첫째, 머신러닝이 새로운 분야에 적용될 때는 종종 기계 학습을 훈련시키기 위한 충분한 데이터가 없습니다. 번역이나 물체 인식과 같은 오래된 분야에는 수년 동안 수집된 방대한 데이터가 있지만, 새로운 분야는 이러한 이점을 누리지 못합니다.

또한, 딥러닝의 인기가 높아짐에 따라 데이터의 필요성이 증가했습니다. 전통적인 머신러닝에서는 특성 공학(feature engineering)에 많은 노력이 들어가는데, 이는 해당 분야를 잘 이해해야 훈련을 위한 특성을 선택하고 생성할 수 있기 때문입니다. 딥러닝은 독립적으로 특성을 파악하여 이 과정을 쉽게 만들어주지만, 이 편리함은 대가를 동반합니다. 딥러닝은 일반적으로 잘 작동하기 위해 더 많은 데이터가 필요합니다. 따라서 효과적이고 확장 가능한 데이터 수집 방법을 찾는 것이 특히 대규모 언어 모델(LLMs)과 관련하여 그 어느 때보다 중요해졌습니다.

그림 1은 머신러닝을 위한 데이터 수집의 전반적인 개요를 보여줍니다. 커뮤니티가 분산적으로 기여할 수 있는 하위 주제들은 녹색 텍스트로 강조되어 있습니다.

<figure><img src="/files/gieJGKf7SnwVV1HH7DoY" alt=""><figcaption><p>그림 1. 데이터 수집 환경</p></figcaption></figure>

누구나 Analytix와 [xData](/din-cook-data-for-ai/korean/undefined/xdata.md)라는 두 개의 dApp을 통해 DIN 네트워크가 온체인 및 오프체인 데이터를 수집하는 데 도움을 줄 수 있습니다.

네트워크는 데이터 수집 노드의 데이터 품질에 따라 보상을 제공합니다(이 품질 평가 기준은 네트워크에 의해 자동으로 결정되며, 검증자 노드의 도움을 받습니다).

검증자 노드는 허가가 필요 없는 구조로 되어 있어, 더 많은 사람들이 네트워크 구축에 참여할수록 전체 네트워크가 더 강력해질 수 있습니다.