关于编辑距离的应用方案--

在进行搜索的时候会涉及到一些NLP相关的技术实现,其中搜索词改错与搜索词改写就是一个非常重要的流程,在这里介绍一种基于前缀树的搜索词改写的实

钉钉预警与代码实现

​ 本文档对自定义钉钉机器人的流程与注意事项做一个简单介绍,没有知识点,作为一个日常笔记,储备一些小工具。 一、获取自定义机器人webhook 步

Flink基础2-Data Source介绍

前言 Data Sources 是什么呢?就字面意思其实就可以知道:数据来源。 Flink 做为一款流式计算框架,它可用来做批处理,即处理静态的数据集、历史的数据集;也可以用来

Spark核心算子

Spark RDD: Transformation Meaning map(func) 返回一个新的分布式数据集,该数据集是通过将源的每个元素传递给函数func处理形成的。 filter(func) 返回一个新的数据集,该数据集是通过fu

SQL开发规范与优化规则

​ 本文档说明优化技术主要考虑大数据环境SQL on Hadoop解决方案下的优化规则及开发规范,已尽力刨除RDBMS优化细节,且尽量不加杂关系代数

SQL开发规范与优化规则

​ 本文档说明优化技术主要考虑大数据环境SQL on Hadoop解决方案下的优化规则及开发规范,已尽力刨除RDBMS优化细节,且尽量不加杂关系代数

基于PGSQL左连接SQL执行计划解析

一 示例数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 -- table employee drop table if exists employee; create table employee( empno int, ename VARCHAR(10), job VARCHAR(9), mgr int, hiredate DATE, sal decimal(7,2), comm decimal(7,2), deptno int ) ; insert into employee (empno, ename,

增量ETL (长周期指标) 优化方案

​ 在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求,常见三种场景抽象如下: pv类: 统计每个城市(过去30天)用户浏览次数; 统计每个