我们接着上一篇《MapReduce实战练习: 使用搜狗实验数据对数据去重》 接着讲解关于对keyword(热搜词)的top100计算
###第一步,我们得到每个词的搜索次数
我们将上篇项目中的输出文件,作为本篇的输入源
#####计算每个关键词出现的次数,新建 KeyWordCount.java
源码
1 |
|
输出的数据文件,如下图:
###第二步,根据统计每一词的count,按照做从小到大的排序, 前100的热搜词
#####计算每个关键词出现的次数,新建 KeyWordCount.java
源码
1 | package com.autohome.example; |
输出结果为:
我们可以看到前面是搜索的次数, 后面是搜索的关键词, 按照搜索的热度,取最高的100名, 按从小到大的顺序。