> For the complete documentation index, see [llms.txt](https://docs.din.lol/din-cook-data-for-ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.din.lol/din-cook-data-for-ai/korean/din-1/exploring-din-an-in-depth-technical-overview/data-flow-of-ai.md).

# AI의 데이터 흐름

데이터 흐름은 AI 엔지니어링 라이프 사이클에서 데이터 이동 순서를 나타내는 머신러닝 패턴입니다.

우선, 데이터는 그림 1에 나와 있는 것처럼 저장, 훈련 등을 위해 계층별로 처리됩니다.

그 후, 데이터는 머신러닝 모델 및 응용 프로그램에서 사용하기 위해 저장, 정제 및 준비되면서 처리 계층을 통과합니다. 보다 기능적인 관점에서, 데이터는 아래와 같이 다양한 머신러닝 기능 그룹에 의해 사용됩니다.:

<figure><img src="/files/iqOIv1QyW5MnWRMS59iR" alt=""><figcaption><p>그림 1. AI의 데이터 흐름 및 기능 그룹</p></figcaption></figure>

위 차트의 각 계층에 대한 자세한 설명은 다음과 같습니다.:&#x20;

#### 데이터출처

데이터 출처에는 다음과 같은 것들이 포함됩니다:

* 회사 내부 데이터베이스
* 회사 내부 파일
* 웹사이트
* 퍼블릭 데이터
* 스마트폰 앱
* IoT 장치
* 상용 데이터 애그리게이터
* 판매 시점
* 기업 내부 프로세스
* 소셜 미디어
* 데이터 스트림

#### 데이터 수집

데이터 수집 메커니즘에는 다음과 같은 것들이 포함됩니다:

* 웹사이트 스크래핑
* 웹사이트 및 스마트폰 채팅 대화
* 웹사이트 및 스마트폰 양식 제출
* IoT 디바이스 인터페이스
* 상용 데이터 애그리게이터 피드
* 기업 내부 프로세스 피드

#### 데이터 파이프라인

파이프라인 프로세스에는 다음과 같은 것들이 포함됩니다:

* 데이터 수집
* 데이터 임시 저장소
* 데이터 구독
* 데이터 게시

#### 데이터베이스

데이터베이스에는 다음과 같은 것들이 포함됩니다:

* 데이터 레이크
* 속편 데이터베이스
* 문서 데이터베이스
* 그래프 데이터베이스

#### ETL 과정

ETL 과정에는 다음과 같은 것들이 포함됩니다:

* 추출 기능: 선택된 소스에서 데이터를 가져옵니다.
* 변환 기능: 정규화, 정규화, 집계 등을 수행합니다.
* 적재 기능: 모델링 과정에서 사용할 수 있는 형식으로 데이터를 저장합니다.

#### 모델

모델 유형 카테고리 예시에는 다음이 포함됩니다:

* 인공 신경망
* 의사 결정 트리
* 확률적 그래픽 모델
* 클러스터 분석
* 가우스 프로세스
* 회귀 분석

#### 애플리케이션

애플리케이션 예시에는 다음이 포함됩니다:

* 의료 진단
* 자율 주행 차량
* 챗봇 대화 상자
* 이미지 인식
* 얼굴 인식
* 제품 권장 사항
* 이탈 예측
* 멀웨어 탐지
* 검색 개선