AI의 데이터 흐름

데이터 흐름은 AI 엔지니어링 라이프 사이클에서 데이터 이동 순서를 나타내는 머신러닝 패턴입니다.

우선, 데이터는 그림 1에 나와 있는 것처럼 저장, 훈련 등을 위해 계층별로 처리됩니다.

그 후, 데이터는 머신러닝 모델 및 응용 프로그램에서 사용하기 위해 저장, 정제 및 준비되면서 처리 계층을 통과합니다. 보다 기능적인 관점에서, 데이터는 아래와 같이 다양한 머신러닝 기능 그룹에 의해 사용됩니다.:

그림 1. AI의 데이터 흐름 및 기능 그룹

위 차트의 각 계층에 대한 자세한 설명은 다음과 같습니다.:

데이터출처

데이터 출처에는 다음과 같은 것들이 포함됩니다:

  • 회사 내부 데이터베이스

  • 회사 내부 파일

  • 웹사이트

  • 퍼블릭 데이터

  • 스마트폰 앱

  • IoT 장치

  • 상용 데이터 애그리게이터

  • 판매 시점

  • 기업 내부 프로세스

  • 소셜 미디어

  • 데이터 스트림

데이터 수집

데이터 수집 메커니즘에는 다음과 같은 것들이 포함됩니다:

  • 웹사이트 스크래핑

  • 웹사이트 및 스마트폰 채팅 대화

  • 웹사이트 및 스마트폰 양식 제출

  • IoT 디바이스 인터페이스

  • 상용 데이터 애그리게이터 피드

  • 기업 내부 프로세스 피드

데이터 파이프라인

파이프라인 프로세스에는 다음과 같은 것들이 포함됩니다:

  • 데이터 수집

  • 데이터 임시 저장소

  • 데이터 구독

  • 데이터 게시

데이터베이스

데이터베이스에는 다음과 같은 것들이 포함됩니다:

  • 데이터 레이크

  • 속편 데이터베이스

  • 문서 데이터베이스

  • 그래프 데이터베이스

ETL 과정

ETL 과정에는 다음과 같은 것들이 포함됩니다:

  • 추출 기능: 선택된 소스에서 데이터를 가져옵니다.

  • 변환 기능: 정규화, 정규화, 집계 등을 수행합니다.

  • 적재 기능: 모델링 과정에서 사용할 수 있는 형식으로 데이터를 저장합니다.

모델

모델 유형 카테고리 예시에는 다음이 포함됩니다:

  • 인공 신경망

  • 의사 결정 트리

  • 확률적 그래픽 모델

  • 클러스터 분석

  • 가우스 프로세스

  • 회귀 분석

애플리케이션

애플리케이션 예시에는 다음이 포함됩니다:

  • 의료 진단

  • 자율 주행 차량

  • 챗봇 대화 상자

  • 이미지 인식

  • 얼굴 인식

  • 제품 권장 사항

  • 이탈 예측

  • 멀웨어 탐지

  • 검색 개선

最后更新于

这有帮助吗?