AI 数据流
最后更新于
最后更新于
数据流是代表AI工程生命周期中数据移动顺序的机器学习模式。
首先,如图1所示,数据分层处理,以便进行存储、训练等准备工作。 然后,数据通过处理层进行存储、优化,并为机器学习模型和应用的使用做准备。从功能角度来看,数据随后被不同的机器学习功能组使用,具体如下:
上图中每一层的详细信息如下:
数据来源
数据来源包括:
公司内部数据库
公司内部文件
网站
公开数据
智能手机应用
物联网设备
商业数据聚合商
销售点
企业内部流程数据流
社交媒体
数据流
数据捕获
数据捕获机制包括:
网站抓取
网站和智能手机聊天对话
网站和智能手机表单提交
物联网设备接口
商业数据聚合商数据流
企业内部流程数据流
数据管道
数据管道流程包括:
数据摄取
数据临时存储
数据订阅
数据发布
数据库
数据库包括:
数据湖
关系型数据库
文档型数据库
图形数据库
ETL流程
ETL流程包括:
提取功能:从选定的数据源中提取数据
转换功能:规范化、正则化、聚合
加载功能:将数据保存为模型处理可用的格式
模型
模型类型示例包括:
人工神经网络
决策树
概率图模型
聚类分析
高斯过程
回归分析
应用
应用示例包括:
医疗诊断
自动驾驶车辆
聊天机器人对话
图像识别
人脸识别
产品推荐
客户流失预测
恶意软件检测
搜索优化