ElasticSearch 索引

索引对应于关系型数据库,其实就是首次将数据存入数据库的意思。 在索引阶段,需要了解: 索引的方式 索引哪些内容 自定义 预定义 关键词 映射 _mappging 定义一张表的基本结构 核心类型 字符串 整型 日期 布尔 数组 多字段 预定义字段 _all _source _uid _id _type 所有以下划线(_)起头的字段 代码实战
Click to read more ...

RESTful 概述

REST,即Representational State Transfer的缩写。 表现层(Representation) “表现层”其实指的是”资源”(Resources)的”表现层”。所谓”资源”,就是网络上的一个实体,或者说是网络上的一个具体信息。它可以是一段文本、一张图片、一首歌曲、一种服务,总之就是一个具体的实在。你可以用一个URI(统一资源定位符)指向它,每种资源对应一个特定的URI。要获取这个资源,访问它的URI就可以,因此URI就成了每一个资源的地址或独一无二的识别符。 状态转化(State Transfer) 代表了客户端和服务器的一个互动过程。 用到的手段,只能是HTTP协议。具体来说,就是HTTP协议里面,四个表示操作方式的动词:GET、POST、PUT、DE...
Click to read more ...

字词的向量表示法-word2vec_basic源码解读

最近接触到一个通过 CNN 和 RNN 的方式对文本进行分类的项目。其中在文本的输入部分用到了 word2vec 。有机会感受到这个强大的文本向量化模型的优势。查阅了 tensorflow 关于 word2vec 的官方文档,觉得其中讲述 word2vec 基础模型的代码文档写的非常有意思。因此,有了顺便对这个文档进行翻译的想法。也通过这个过程,进一步加深自己对 word2vec 的理解。 首先,从结构上对文档进行分解,文档总共分7部分: 依赖库导入 数据下载 创建词典和移除罕见词 生成训练批次 构建 skip-gram 模型 开始训练 可视化 依赖库导入 from __future__ import absolute_import from __...
Click to read more ...

字词的向量表示法-word2vec_basic源码解读

最近接触到一个通过 CNN 和 RNN 的方式对文本进行分类的项目。其中在文本的输入部分用到了 word2vec 。有机会感受到这个强大的文本向量化模型的优势。查阅了 tensorflow 关于 word2vec 的官方文档,觉得其中讲述 word2vec 基础模型的代码文档写的非常有意思。因此,有了顺便对这个文档进行翻译的想法。也通过这个过程,进一步加深自己对 word2vec 的理解。 首先,从结构上对文档进行分解,文档总共分7部分: 依赖库导入 数据下载 创建词典和移除罕见词 生成训练批次 构建 skip-gram 模型 开始训练 可视化 依赖库导入 from __future__ import absolute_import from __...
Click to read more ...

Kaggle房价预测实践系列4-模型训练

现在进入到了正式的模型训练阶段,在面对一个问题时,选择什么样的模型来处理,也是很考量研究者的。截至目前为止,已经存在的各种各样正式发表的模型就有两千多个,每一种都一一尝试显然不现实。并且,拿不适用的模型处理不适用的数据,显然对我们要解决的问题来说南辕北辙。因此,我们往往在对问题的调研阶段就会确定问题的基本类型,同时调查在当前工业界和学术界解决这种类型问题主流的模型是什么、有哪些。此处,针对我们当前的问题,我们选择了7种模型,ridge 回归、svr 回归、gradient boosting 回归、random forest 回归、xgboost 回归、lightgbm 回归,它们都是当前应用在预测问题上比较出色的主流模型。 当然,除了对这7种模型的独立训练之外,我们还对它们进行了两种...
Click to read more ...

Kaggle房价预测实践系列3-特征工程

完成了前述的数据清理工作,有时也叫做数据清洗。接下来,我们需要进行特征工程的另一个重要环节构造特征和特征变换阶段。实践中,对特征的构造往往是基于对业务的了解甚至是直觉、常识等来进行的。在这里,我们会对一些与房屋关系密切的特征来处理,比如说楼层总面积,每个房间的浴室和走廊面积等。 构造特征 all_features['BsmtFinType1_Unf'] = 1*(all_features['BsmtFinType1'] == 'Unf') all_features['HasWoodDeck'] = (all_features['WoodDeckSF'] == 0) * 1 all_features['HasOpenPorch'] = (all_features['OpenPorch...
Click to read more ...