Pandas基本用法

1.数据导入 df=pd.read_csv('Pokemon.csv',encoding="ISO-8859-1") df.head() 2.查看数据 df.shape df.shape[0] df.shape[1] df.columns #列名 df.index #行名 df.dtypes df.head() df.tail() df.sample() df.describe() pd.set_option('max_colwidth',8) #设置每一行的最大宽度,恢复原设置方法 pd.reset_option('max_colwidth') loc操作与iloc loc通过label定位;iloc通过position定位 df.loc[[0,5],['名称','生命点数']] df.iloc[0:10,[0,1]] df[:3] 3.数据筛选与操作 df[df['综合能力']>400].head() df[df['世代数']==1] df.insert(4,'能力600',df['综合能力']>=600) 4.读取数据 pickle文件,可以将python中的数据类型进行序列化 compression参数指定了压缩类型,‘zip’, ‘gzip’, ‘bz2’, ‘zstd’ ...

五月 20, 2022

工程化之docker+kubeflow

基本概念 1.docker 应用容器引擎,用于运行容器 image:可执行程序 container:运行起来的进程 dockerfile:image的源代码, 是一个用**来构建镜像的文本文件,**文本内容包含了一条条构建镜像所需的指令和说明 ...

四月 5, 2022

机器学习实战(LightGBM)

LightGBM 介绍 LightGBM(Light Gradient Boosting Machine):一个实现GBDT算法的框架,解决GBDT在海量数据遇到的问题。 两大技术: (1)GOSS(Gradient-based One-Side Sampling):减少样本数 ...

四月 5, 2022

机器学习实战(集成学习与随机森林)

集成学习与随机森林 更新权重 Adaboost AdaBoostClassifier(base_estimator=None, n_estimators=50, learning_rate=1.0, algorithm=’SAMME.R’, random_state=None) base_estimator:可选参数,默认为DecisionTreeClassifier。 algorithm: 可选参数,默认为SAMME.R 循环训练,实例权重不断更新(不是是成本函数最小化,而是加入更多预测器) ...

四月 5, 2022

机器学习实战(降维)

降维 主要动机 加速,可视化数据,节省空间 缺点:丢失信息,计算密集,转换过程难以理解 什么时候用到降维 分类前,加速;聚类前,可视化数据 维度诅咒 高维数据集——非常稀疏——训练实例彼此远离——容易过拟合 ...

四月 5, 2022

机器学习实战(决策树)

决策树 分类树 八个重要参数 criterion: 决定不纯度的计算方法: 1)”entropy“,使用信息熵(Entropy) 2)”gini“,使用基尼系数(Gini Impurity) ...

四月 5, 2022

机器学习实战(训练模型)

训练模型 训练模型的方法 使用成本函数最小的参数 标准方程法 SVD奇异值分解 迭代优化,使用梯度下降 批量梯度下降 随机梯度下降 小批量梯度下降 训练模型方法的问题 训练集有数百万特征:(使用迭代优化)随机梯度下降和小批量梯度下降,若训练集可以容纳于内存,使用批量梯度下降 ...

四月 5, 2022

机器学习实战(支持向量机)

支持向量机 线性SVM分类 硬间隔分类:让所有实例都在正确的一边的分类。 硬间隔变成软间隔:引入松弛变量C。 C是调节间隔与准确率的因子,C值越大,越不愿放弃那些离群点;c值越小,越不重视那些离群点。(模型过拟合,C值调小进行正则化) 软间隔分类:在“街道”的宽度和间隔违例(错误分类)之间找到良好的平衡的分类。 svm_clf = SVC(kernel=“linear”, C=float(“inf”)) 线性核函数 ...

四月 5, 2022