关于编辑距离的应用方案--

2020-10-09 01:37

算法 NLP

约 1028 字预计阅读 3 分钟

在进行搜索的时候会涉及到一些NLP相关的技术实现，其中搜索词改错与搜索词改写就是一个非常重要的流程，在这里介绍一种基于前缀树的搜索词改写的实

阅读更多

NLP入门（一）词袋模型及句子相似度

2020-10-05 01:37

算法 NLP

约 1587 字预计阅读 4 分钟

本文将会介绍NLP中常见的词袋模型（Bag of Words）以及如何利用词袋模型来计算句子间的相似度（余弦相似度，cosine similarit

阅读更多

NLP入门（三）词形还原（Lemmatization)

2020-09-08 01:37

算法 NLP

约 999 字预计阅读 2 分钟

词形还原（Lemmatization）是文本预处理中的重要部分，与词干提取（stemming）很相似。简单说来，词形还原就是去掉单词的词缀，

阅读更多

NLP入门（二）探究TF-IDF的原理

2020-09-08 01:37

算法 NLP

约 4199 字预计阅读 9 分钟

TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，通常用于提取

阅读更多

NLP入门（五）用深度学习实现命名实体识别（NER）

2020-09-08 01:37

算法 NLP

约 6065 字预计阅读 13 分钟

在本文中，我们将会学习到如何使用深度学习工具来自己一步步地实现NER，只要你坚持看完，就一定会很有收获的。几乎所有的NLP都依赖一个强大的语

阅读更多

NLP入门（四）命名实体识别（NER）

2020-09-08 01:37

算法 NLP

约 2230 字预计阅读 5 分钟

本文将会简单介绍自然语言处理（NLP）中的命名实体识别（NER）。命名实体识别（Named Entity Recognition，简称NER）是信息提取、

阅读更多

word2vec训练中文模型—wiki百科中文库

2020-09-08 01:37

算法 NLP

约 2814 字预计阅读 6 分钟

词向量作为文本的基本结构——词的模型。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起，这对后续的文本分类，文本聚类等等操作提供了便

阅读更多

关于编辑距离的应用方案--单词或专属名词拼写检查算法

2020-09-08 01:37

算法 NLP

约 1293 字预计阅读 3 分钟

最近在做楼盘搜索的时候遇到一个问题，用户在查询楼盘的时候回出现楼盘名称输入有误的情况，一般会出现一个或多个错字，其中同义词可以根据词典和拼音

阅读更多

钉钉预警与代码实现

2020-09-08 01:37

工具

约 2206 字预计阅读 5 分钟

本文档对自定义钉钉机器人的流程与注意事项做一个简单介绍，没有知识点，作为一个日常笔记，储备一些小工具。一、获取自定义机器人webhook 步

阅读更多

Flink基础2-Data Source介绍

2020-08-30 01:37

FLINK

约 2126 字预计阅读 5 分钟

前言 Data Sources 是什么呢？就字面意思其实就可以知道：数据来源。 Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来

阅读更多

Spark核心算子

2020-08-11 01:37

Spark

约 4097 字预计阅读 9 分钟

Spark RDD： Transformation Meaning map(func) 返回一个新的分布式数据集，该数据集是通过将源的每个元素传递给函数func处理形成的。 filter(func) 返回一个新的数据集，该数据集是通过fu

阅读更多

SQL开发规范与优化规则

2020-08-11 01:37

SQL

约 2166 字预计阅读 5 分钟

本文档说明优化技术主要考虑大数据环境SQL on Hadoop解决方案下的优化规则及开发规范，已尽力刨除RDBMS优化细节，且尽量不加杂关系代数

阅读更多

SQL开发规范与优化规则

2020-08-11 01:37

SQL

约 2166 字预计阅读 5 分钟

本文档说明优化技术主要考虑大数据环境SQL on Hadoop解决方案下的优化规则及开发规范，已尽力刨除RDBMS优化细节，且尽量不加杂关系代数

阅读更多

基于PGSQL左连接SQL执行计划解析

2020-08-11 01:37

SQL

约 3951 字预计阅读 8 分钟

一示例数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 -- table employee drop table if exists employee; create table employee( empno int, ename VARCHAR(10), job VARCHAR(9), mgr int, hiredate DATE, sal decimal(7,2), comm decimal(7,2), deptno int ) ; insert into employee (empno, ename,

阅读更多

增量ETL (长周期指标) 优化方案

2020-08-11 01:37

SQL

约 1787 字预计阅读 4 分钟

在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求，常见三种场景抽象如下： pv类：统计每个城市(过去30天)用户浏览次数；统计每个

阅读更多