647号小宇宙

2018-10-21
聊聊Kafka

背景

kafka 的诞生,是为了解决 linkedin 的数据管道问题,期初 linkedin 采用了 ActiveMQ 来进行数据交换,大约是在 2010 年前后,那时的 ActiveMQ 还远远无法满足 linkedin 对数据传递系统的要求,经常由于各种缺陷而导致消息阻塞或者服务无法正常访问,为了能够解决这个问题,linkedin 决定研发自己的消息传递系统,当时 linkedin 的首席架构师 jay kreps 便开始组织团队进行消息传递系统的研发;

Read More

2018-08-30
调用模型

提示: 本文是模型部署方案的一部分

依赖

  • java8
  • pmml-evaluator 1.4.2
  • pmml-evaluator-extension 1.4.2

步骤

  1. 使用JPMML执行引擎反序列化pmml文件
  2. 模型校验(此处具体校验的问题,笔者以后另开一篇)
Read More

2018-08-30
加载模型文件

提示: 本文是模型部署方案的一部分

依赖

  • java8
  • pmml-model 1.4.2

步骤

  1. 加载反序列化模型文件为PMML对象
  2. 优化模型,并写到新模型文件
Read More

2018-08-30
SparkML 导出 JPMML

提示: 本文是模型部署方案的一部分

依赖

  • spark 2.2
  • jpmml-sparkml 1.3.8
  • scala 2.11

步骤

  1. 使用spark ml训练一个决策树模型
  2. 在控制台验证可以输出后,写到文件中
Read More

2018-08-30
scikit-learn 导出 JPMML

提示: 本文是模型部署方案的一部分

依赖

步骤

  1. 使用sklearn训练一个模型
  2. 使用sklearn原生API将模型导出为 pickle 格式
  3. 使用 JPMML-SkLearn命令将原始pickle 格式文件转换成JPMML文件
Read More

2018-08-29
机器学习模型部署方案

背景

目前,我们组反欺诈业务已经进行到了较为后期的阶段,初步有了基础的数据平台、计算平台。此时,算法同事也升级了过往基于统计分布的简单算法实现,而采用了更为强大的机器学习模型,目前已知的将会使用以下几类算法:离群点检测算法、树类算法等(笔者仅了解常见算法,描述不准确还望见谅。)

Read More

2017-11-22
小议 Docker:Docker 基础

Linux 平台是 Docker 原生支持的平台,在 Linux 上使用 Docker 可以得到最佳的用户体验。

Read More

2017-11-02
小议 Docker:容器、容器云

从 2013 年发布至今,Docker 一直保持着旺盛的生命力。Docker 选择容器作为核心和基础,依靠容器技术支撑的 Docker 迅速成为国内外各大云计算厂商和开发者手中的至宝。

Read More

2017-08-29
监控调研

背景

性能压测后,逐个埋点添加各种StopWatch。

两个缺点:

  1. 侵入了业务逻辑,降低可读性
  2. 耗时,工作量大

期望:

  1. 【注解】 基于配置或注解可以精确控制要添加性能监控的method或class
  2. 【指标维度全面】监控指标全面,除了常见的QPS、Req Cost Time,还要有TPS, P90, P95 ,P99等指标
  3. 【可视化】最好有图形化的界面可以实时看到各个method的性能状况
Read More

2017-08-25
Shell编程实战总结

Vim 批量行首添加字符串

Read More