在机器学习中,以数据为中心,分为数据预处理、特征工程、模型选择和评估四个阶段,称之为机器学习流程。下面,我们就带你走进ML全过程,了解各个阶段的细节。
数据预处理
数据预处理是指在机器学习前对数据进行清洗、转换、归一化处理,使其转换成适合机器学习的数据格式。包括数据清洗、数据集成、数据变换和数据规约等。
在数据预处理步骤中,主要会去除重复、缺失、异常和噪声等异常值,以清洗数据,同时采用归一化处理,保证不同数据之间比较的一致性。
特征工程
特征工程是指使用现有数据特征,以及对特征进行一定的变换、处理等操作,构建出适合机器学习算法的特征集合,它的好坏对模型结果影响很大。
特征工程的方法包括特征选择、特征抽取和特征构造。特征工程中,我们需要进行数据的预处理、数据探索,然后通过特征的抽取、选择和转换等方式得到更有表现力的数据特征。
模型选择
模型选择是指选择最适合当前任务的模型,由于不同的模型适用于不同的问题,需要经过实验比较才能得出最佳的模型。
常见的模型有线性模型、决策树、神经网络、支持向量机、贝叶斯分类器等。
模型评估
模型评估是指对模型性能进行评估,判断模型是否泛化能力好,准确率高。主要通过交叉验证、ROC曲线、混淆矩阵等方式进行评估。
在ML流程中,每个阶段都有详细的步骤。掌握了每个步骤后,每个人都能进行自己感兴趣的领域的机器学习工作。