方法主要有两种: 1 自己制作方案,获取数据。比如编写网页爬虫,从RSS反馈或者API,检测设备。 2 从公开的可用数据源中获得。 ------------------------------------------------------------------------------------------------------------------------------------------
得到数据之后,还必须保证数据格式符合要求。 此外还需为机器学习算法准备特定的数据格式。如特定的格式,特定的数据类型(字符串,整型) ------------------------------------------------------------------------------------------------------------------------------------------
1 确保没有垃圾数据(空值,异常值) 2 进一步浏览数据,分析是否可以识别出模式(一维 二维 三维图) ------------------------------------------------------------------------------------------------------------------------------------------
机器学习算法从这一步开始真正进入学习。根据算法的不同,STEP_4 和 STEP_5 是机器学习算法的核心。 将前两步得到的格式化数据输入到算法,从中抽取知识或者信息。这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。 如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容集中在 STEP_5。 ------------------------------------------------------------------------------------------------------------------------------------------
这一步将实际使用 STEP_4 中机器学习到的知识信息。为了评估算法,必须测试算法的性能。 对于监督学习,必须已知用于评估算法的目标变量; 对于无监督学习,也必须用其他的测评手段来检验算法的成功率。 无论哪种情形,如果不满意算法的输出结果,则可以回到 STEP_4 ,改正并加以测试。 问题常常跟数据的收集和准备有关(特征选择),这时必须跳回 STEP_1 重新开始。 -------------------------------------------------------------------------------------------------------------------------------------------
转化为生产 -------------------------------------------------------------------------------------------------------------------------------------------
Welcome to contact me,the friends who like Machine-Learning and Data-Mining.
01 Nov 2014