分类算法和聚类算法的区别

1、分类和聚类的区别:

Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),

Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).

2、常见的分类与聚类算法

常用推荐算法

推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。
一、基于内容推荐
基 于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。 基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是:
(1)不需要其它用户的数据,没有冷开始问题和稀疏问题。
(2)能为具有特殊兴趣爱好的用户进行推荐。
(3)能推荐新的或不是很流行的项目,没有新项目问题。
(4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。

kafka生产者数据压缩前后吞吐量对比

1.服务器信息:
Cpu: 16 Intel(R) Xeon(R) CPU E5-26xx v3
内存: 32G
硬盘: 500G

2.测试结果:
1000万条数据压力测试,默认平均吞吐量是55MB/S,压缩后平均吞吐量是64MB/s,整体提升16.4%。

Heka开发指南

《Heka开发指南》

作者邮箱:drupaluser#qq.com
有需要完整电子版本请邮箱联系。
版权所有,转载或引用注明出处。

Heka是Mozilla开发的一个开源的流式处理软件系统。Heka在数据处理工具中号称“瑞士军刀”,其用处广泛,例如:

  • 加载和解析文件系统中的日志文件。
  • 接受statsd类型的聚合数据,以及转发上游的时序数据存储到graphite或InfluxDB。
  • 启动外部进程收集本地系统操作数据。
  • 通过Heka管道实现任何数据的实时统计、分析和异常检测。
  • 通过外部协议(如AMQP)或直接TCP来传输数据。
  • 处理数据实现多个持久存储。

目录:
第1章:概述
第2章:安装
第3章:配置
第4章:Inputs
第5章:Splitters
第6章:Decoders
第7章:Filters
第8章:Encoders
第9章:Outputs
第10章:监控
第11章:消息
第12章:扩展
第13章:测试

Subscribe to 水滴石穿 RSS