机器学习应用

 

机器学习应用的典型步骤

 

算法是机器学习的核心,学习诸多种算法固然重要,然而今天要说的是,如何在不同的行业中将已经学的机器学习算法与实际业务相结合,进而将数据的价值发挥到极致的问题,即机器学习案例实践的问题。

 

每一个案例在被实践的过程当中,往往会有一个明确的思路,掌握该思路并解决实践过程当中所遇到的琐碎问题,那么,你的目的达到了。本文将结合预测某地房价的案例重点讲解案例实践过程中的几个典型步骤:


1. 数据采集和标记
数据是检验真理的重要标准。首先,需要采集大量不同特征的房了和所对应的价格信息,如房子的面积、地理位置、朝向、价格等。可以通过多种途径收集数据,这些数据叫做训练样本,或数据集。房子的面积、地理位置等称为特征。在数据采集阶段,需要收集尽量多的特征。特征越全,数据越多,训练出来的模型才会越准确。


2. 数据清洗
假设采集到的数据里,关于房子面积,有按平方米计算的,也有按平方英尺计算的,这是需要对面积单位进行统一,这个过程称为数据清洗。数据清洗还包括去掉重复的数据及噪声数据,让数据具备结构化特征,以方便作为机器学习算法的输入。


3. 特征选择
假设采集到了100个房子的特征,通过逐个分析这些特征,最终选择了30个特征进行人员分析,这个过程成为特征选择。特征选择的方法之一是人工选择方法,即对逐个特征进行人员分析,然后选择合适的特征集合。另外一个方法是通过模型来自动完成,比如主成分分析(PCA)算法。

 

4. 模型选择
房价评估系统是属于有监督学习的回归学习类型,可以选择最简单的线性方程来模拟。选择哪个模型和问题领域、数据量大小、训练时长、模型的准确度等多方面有关。

 


5. 模型训练和测试
此时将数据集分成训练数据集和测试数据集,-般按照8:27:3来划分,然后用训练数据集来训练模型。训练出参数后再使用测试数据集来测试模型的准确度。


6. 模型性能评估和优化
模型出来后,需要对机器学习的算法模型进行性能评估。性能评估包括很多方面,比如训练时长是指需要花多长时间来训练这个模型。对一些海量数据的机器学习应用,可能需要1个月甚至更长的时间来训练一个模型。

 

7. 模型使用

训练出来的模型可以把参数保存起来,下次使用时直接加载即可。一般来讲,模型训练需要的计算量是很大的,也需要较长的时间来训练,这是因为一个好的模型参数,需要对大型数据集进行训练后才能得到。而真正使用模型时,其计算量是比较少的,一般是直接把新样本作为输入,然后调用模型即可得出预测结果。

 

西安优盛结合实际业务、机器学习核心算法和应用的典型步骤,已自主研发了诸多针对不同算法的相关案例投入教学,旨在不仅让学员掌握机器学习核心算法,更重要的是学以致用。

     

关于我们 | 新闻中心 | 合作伙伴 | 联系我们 |
西安优盛信息技术有限公司  版权所有©2007-2018  陕ICP备07501629号
在线客服系统