Machine Learning

Pandas基本用法

1.数据导入 df=pd.read_csv('Pokemon.csv',encoding="ISO-8859-1") df.head() 2.查看数据 df.shape df.shape[0] df.shape[1] df.columns #列名 df.index #行名 df.dtypes df.head() df.tail() df.sample() df.describe() pd.set_option('max_colwidth',8) #设置每一行的最大宽度，恢复原设置方法 pd.reset_option('max_colwidth') loc操作与iloc loc通过label定位；iloc通过position定位 df.loc[[0,5],['名称','生命点数']] df.iloc[0:10,[0,1]] df[:3] 3.数据筛选与操作 df[df['综合能力']>400].head() df[df['世代数']==1] df.insert(4,'能力600',df['综合能力']>=600) 4.读取数据 pickle文件，可以将python中的数据类型进行序列化 compression参数指定了压缩类型，‘zip’, ‘gzip’, ‘bz2’, ‘zstd’ ...

工程化之docker+kubeflow

基本概念 1.docker 应用容器引擎，用于运行容器 image：可执行程序 container：运行起来的进程 dockerfile：image的源代码，是一个用**来构建镜像的文本文件，**文本内容包含了一条条构建镜像所需的指令和说明 ...

机器学习实战(LightGBM)

LightGBM 介绍 LightGBM（Light Gradient Boosting Machine）：一个实现GBDT算法的框架，解决GBDT在海量数据遇到的问题。两大技术：（1）GOSS(Gradient-based One-Side Sampling)：减少样本数 ...

机器学习实战(集成学习与随机森林)

集成学习与随机森林更新权重 Adaboost AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None) base_estimator:可选参数，默认为DecisionTreeClassifier。 algorithm：可选参数，默认为SAMME.R 循环训练，实例权重不断更新（不是是成本函数最小化，而是加入更多预测器） ...

机器学习实战(降维)

降维主要动机加速，可视化数据，节省空间缺点：丢失信息，计算密集，转换过程难以理解什么时候用到降维分类前，加速；聚类前，可视化数据维度诅咒高维数据集——非常稀疏——训练实例彼此远离——容易过拟合 ...

机器学习实战(决策树)

决策树分类树八个重要参数 criterion：决定不纯度的计算方法： 1）”entropy“，使用信息熵（Entropy） 2）”gini“，使用基尼系数（Gini Impurity） ...

机器学习实战(训练模型)

训练模型训练模型的方法使用成本函数最小的参数标准方程法 SVD奇异值分解迭代优化，使用梯度下降批量梯度下降随机梯度下降小批量梯度下降训练模型方法的问题训练集有数百万特征：（使用迭代优化）随机梯度下降和小批量梯度下降，若训练集可以容纳于内存，使用批量梯度下降 ...

机器学习实战(支持向量机)

支持向量机线性SVM分类硬间隔分类：让所有实例都在正确的一边的分类。硬间隔变成软间隔：引入松弛变量C。 C是调节间隔与准确率的因子，C值越大，越不愿放弃那些离群点；c值越小，越不重视那些离群点。（模型过拟合，C值调小进行正则化）软间隔分类：在“街道”的宽度和间隔违例（错误分类）之间找到良好的平衡的分类。 svm_clf = SVC(kernel=“linear”, C=float(“inf”)) 线性核函数 ...