# AI 数据流

数据流是代表AI工程生命周期中数据移动顺序的机器学习模式。

首先，如图1所示，数据分层处理，以便进行存储、训练等准备工作。\
然后，数据通过处理层进行存储、优化，并为机器学习模型和应用的使用做准备。从功能角度来看，数据随后被不同的机器学习功能组使用，具体如下：

<figure><img src="https://content.gitbook.com/content/r2PyvL89MTgmGKhg3h05/blobs/n9zlrD4S4uhl8PXRn7gM/image.png" alt=""><figcaption><p>Data Flow and Functional Groups in AI </p></figcaption></figure>

上图中每一层的详细信息如下：

**数据来源**

数据来源包括：

* 公司内部数据库
* 公司内部文件
* 网站
* 公开数据
* 智能手机应用
* 物联网设备
* 商业数据聚合商
* 销售点
* 企业内部流程数据流
* 社交媒体
* 数据流

**数据捕获**

数据捕获机制包括：

* 网站抓取
* 网站和智能手机聊天对话
* 网站和智能手机表单提交
* 物联网设备接口
* 商业数据聚合商数据流
* 企业内部流程数据流

**数据管道**

数据管道流程包括：

* 数据摄取
* 数据临时存储
* 数据订阅
* 数据发布

**数据库**

数据库包括：

* 数据湖
* 关系型数据库
* 文档型数据库
* 图形数据库

**ETL流程**

ETL流程包括：

* 提取功能：从选定的数据源中提取数据
* 转换功能：规范化、正则化、聚合
* 加载功能：将数据保存为模型处理可用的格式

**模型**

模型类型示例包括：

* 人工神经网络
* 决策树
* 概率图模型
* 聚类分析
* 高斯过程
* 回归分析

**应用**

应用示例包括：

* 医疗诊断
* 自动驾驶车辆
* 聊天机器人对话
* 图像识别
* 人脸识别
* 产品推荐
* 客户流失预测
* 恶意软件检测
* 搜索优化
