Kaggle房价预测实践系列2-特征工程

上篇文章中，我们对拿到的数据做了深入的EDA。现在，根据EDA的结论，我们可以正式的实施特征工程的工作了。特征工程需要做的工作内容大致包括以下的内容：删除极端值分离训练特征和标签属性管道处理合并训练特征和测试特征缺失值处理填充缺失值字符型特征的处理歪斜正态分布矫正下面，就通过实际的代码来展示以上的处理过程：删除极端值通过前面EDA的分析，我们看到 OverallQual 属性中, 小于5的设置值通常对应低的 SalePrice ，因此，当出现小于5的设置值却对应大的 SalePrice 时，...

Click to read more ...

Jun 21, 2019

ElasticSearch 概览

最近对 ElasticSearch 做了深入的研究，不得不说在搜索的领域，又打开了一扇有趣的大门。 ElasticSearch 是一个基于 Apache Lucene 的开源搜索引擎。而 Lucene 则是当今世界上最好的搜索引擎库，没有之一。但是, Lucene 的弊端在于它是一个库，入门门槛高，需要深入的了解检索的相关知识，才能驾驭它。ElasticSearch 的出现就是为了通过简单的 RESTful API 来隐藏 Lucene 的复杂性，从而让全文搜索变得简单。尽管，ElasticSearch 也是由 Java 编写的，但是在调用 ElasticSearch 时完全不用考虑语言的要求，任何编程语言都可以启动对 ElasticSearch 的调用。这篇文章先对 Elasti...

Click to read more ...

ElasticSearch

Jun 20, 2019

联邦学习: 无需集中训练的协作机器学习

联邦学习: 无需集中训练的协作机器学习导语: 本文翻译自 Google AI 团队科学家 Brendan McMahan 和 Daniel Ramage 的博客文章 Federated Learning: Collaborative Machine Learning without Centralized Training Data 。标准的机器学习方法需要在一台机器上或一个数据中心中有集中的训练数据。为了使谷歌的服务更加完善，我们已经构建了最安全和最具稳定性的云基础架构来处理这些数据。现在，对于通过用户与移动设备交互训练的模型，我们正在引入一种新的方式：联邦学习。联邦学习可以使移动设备协同训练一个共享的预测模型，同时将所有的训练数据保存在设备上，籍此将机器学习和云端存储数...

Click to read more ...

Jun 20, 2019

Kaggle房价预测实践系列1: 特征工程 EDA

在特征工程阶段，探索数据分析EDA是必不可少的部分。通过这一阶段对数据的观察分析，可以对数据的分布做一个宏观的了解，为后面数据的修正和调整确定一个基本的方向。首先是对预测属性的数据观察 sns.set_style("white") sns.set_color_codes(palette='deep') f, ax = plt.subplots(figsize=(8, 7)) #Check the new distribution sns.distplot(train['SalePrice'], color="b"); (mu, sigma) = norm.fit(train['SalePrice']) print( '\n mu = {:.2f} and sigma = {:.2...

Click to read more ...

Jun 20, 2019

机器学习预测过程实践

我们经常提到机器学习，那么，如何更好的描述机器学习的过程呢？谈到机器学习，它不简单但其实也简单。常常的，它必经的环节有特征工程、模型训练和部署预测。在实际的工程实践中，我们往往在解决预测问题前需要评估该问题的可能带来什么样的挑战，之后研究解决该问题存在哪些可行的方法，同时还要评估各种方法能带来的潜在价值和可能引发的成本，最终确定由哪些人以什么样的技术方案来进行模型的训练和预测。在机器学习中，数据是非常重要的，数据的好坏直接决定了模型的上限。因此，负责数据处理的特征工程阶段在三大环节中的比重最为重要，且处理过程更加的需要细心和耐心。通常，在特征工程阶段，我们需要做的工作有下面这些： ...

Click to read more ...

机器学习

Jun 18, 2019

协同过滤概述

一直想写一篇系统介绍协同过滤的文章，最近在调查热评算法，又遇到了协同过滤相关的文章，决定系统的对协同过滤做调查研究。定义基于协同过滤的推荐算法，旨在充分利用集体智慧，即在大量人群的行为和数据中收集答案，以达到对整个人群得到统计意义上的结论。特点推荐的个性化程度高出发点兴趣相近的用户可能会对同样的东西感兴趣用户可能比较偏爱与其已购买的东西相类似的商品通常依据出发点分为两种：依据用户进行的协同过滤依据物品进行的协同过滤冷启动问题新用户新物品通用解决方案，推荐榜单内容计算的步骤选择规模可控的维度依据该维度计算相似度鉴于现在的文章，理论介绍的多，实践介绍...

Click to read more ...

机器学习

Jun 17, 2019