AI의 데이터 흐름
最后更新于
最后更新于
데이터 흐름은 AI 엔지니어링 라이프 사이클에서 데이터 이동 순서를 나타내는 머신러닝 패턴입니다.
우선, 데이터는 그림 1에 나와 있는 것처럼 저장, 훈련 등을 위해 계층별로 처리됩니다.
그 후, 데이터는 머신러닝 모델 및 응용 프로그램에서 사용하기 위해 저장, 정제 및 준비되면서 처리 계층을 통과합니다. 보다 기능적인 관점에서, 데이터는 아래와 같이 다양한 머신러닝 기능 그룹에 의해 사용됩니다.:
위 차트의 각 계층에 대한 자세한 설명은 다음과 같습니다.:
데이터 출처에는 다음과 같은 것들이 포함됩니다:
회사 내부 데이터베이스
회사 내부 파일
웹사이트
퍼블릭 데이터
스마트폰 앱
IoT 장치
상용 데이터 애그리게이터
판매 시점
기업 내부 프로세스
소셜 미디어
데이터 스트림
데이터 수집 메커니즘에는 다음과 같은 것들이 포함됩니다:
웹사이트 스크래핑
웹사이트 및 스마트폰 채팅 대화
웹사이트 및 스마트폰 양식 제출
IoT 디바이스 인터페이스
상용 데이터 애그리게이터 피드
기업 내부 프로세스 피드
파이프라인 프로세스에는 다음과 같은 것들이 포함됩니다:
데이터 수집
데이터 임시 저장소
데이터 구독
데이터 게시
데이터베이스에는 다음과 같은 것들이 포함됩니다:
데이터 레이크
속편 데이터베이스
문서 데이터베이스
그래프 데이터베이스
ETL 과정에는 다음과 같은 것들이 포함됩니다:
추출 기능: 선택된 소스에서 데이터를 가져옵니다.
변환 기능: 정규화, 정규화, 집계 등을 수행합니다.
적재 기능: 모델링 과정에서 사용할 수 있는 형식으로 데이터를 저장합니다.
모델 유형 카테고리 예시에는 다음이 포함됩니다:
인공 신경망
의사 결정 트리
확률적 그래픽 모델
클러스터 분석
가우스 프로세스
회귀 분석
애플리케이션 예시에는 다음이 포함됩니다:
의료 진단
자율 주행 차량
챗봇 대화 상자
이미지 인식
얼굴 인식
제품 권장 사항
이탈 예측
멀웨어 탐지
검색 개선