机器学习(1)——特征工程

机器学习的流程

预处理 ——> 特征工程 ——> 机器学习 ——> 模型评估

如果未达到要求，重新循环

特征工程

将原始数据转换为更好地代表预测模型的潜在问题的特征的工程，从而提高了模型对位置数据预测的准确性（ 属于数据预处理阶段的工作）

以scikit-learn为例：

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
from sklearn.impute import SimpleImputer

def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化
    # sparse改为True,输出的是每个不为零位置的坐标，稀疏矩阵可以节省存储空间
    dict = DictVectorizer(sparse=False)  # 把sparse改为True看看
    #矩阵中存在大量的0，sparse存储只记录非零位置，节省空间
    # 调用fit_transform
    data = dict.fit_transform([{'city': '北京', 'temperature': 100},
                               {'city': '上海', 'temperature': 60},
                               {'city': '深圳', 'temperature': 30}])
    print(data)
    print('-' * 50)
    print(dict.get_feature_names_out())  # 字典中的一些类别数据，分别进行转换成特征
    print('-' * 50)
    print(dict.inverse_transform(data))  #去看每个特征代表的含义，逆转回去
    return None

DictVectorizer.fit_transform：（在训练集上）将字典数据转换为特征值数组（默认是one-hot编码）

DictVectorizer.inverse_transform：上述过程逆转换

sklearn.feature_extraction.text.CountVectorizer：对文本进行特征值化,单个汉字单个字母不统计，因为单个汉字字母没有意义

def countvec():
    """
    对文本进行特征值化,单个汉字单个字母不统计，因为单个汉字字母没有意义,(“我”没有统计)
    :return: None
    """
    cv = CountVectorizer()
    data = cv.fit_transform(["人生苦短，我 喜欢 python python", "人生漫长，不用 python"])

    print(cv.get_feature_names())
    print(data)
    print(data.toarray())
    return None

countvec()