舆情服务平台
Main topic
2012-3-19
史仁仁
需求分析
技术探索
云终端
Android
吴健
继续研究Nutch+Solr
学习Lucene基本功能
入门Hadoop
入门Mahout
2012-3-26
史仁仁
商业报告
2010-4-16
爬取前分类爬取范围,一项公共的,一项是企业独有的,如企业相关政策、财经、证券//IT 、移动通信等等网站,按优先级爬取(在用户界面做成可配置的)
设计模板维护流程:一个独立的部门专门提供编写模板,(能提取未知网站数据,返回模板),生产者消费者???
2012-4-9
分阶段计划及目标
第一阶段
控制爬行范围来抓取原始文档
人工输入关键字、词或段落,查询结果按相关性排列展示,包括主题、链接、摘要
关键词聚类,自动获得舆情热点,取代人工输入
第二阶段
链接或内容排重,一些网页是对其他网页的转载或引用(可能爬虫已经做了)
分类查询或结果分类,可以有主体相关、竞争对手相关或相关专业领域新闻
情感分析,判断舆情新闻的正面、负面或中性之分
趋势分析或舆情预报,追踪热点关注度等发展趋势
(与百度交互)|本周:微博、博客,3个博客(模板,lucene爬),另外股票网站等{尝试如果百度有,就不需要去单独抓取博客}
第三阶段
进一步的分析、地区等偏好分析、统计报表等后续功能
???
2012-4-5
近期计划
任务1:
自动判断响应流的编码方式,从而做到自动适配编码方式。解决乱码问题,才能开展后续工作。
任务2:
用Lucene对页面内容进行索引、搜索,并能以Lucene的默认评分方式对结果进行自定义的排序。
任务3:
突破搜索引擎对查询内容的字数限制(如百度限制其在38个字数之内)。通过对查询内容的预处理,使对大段文字也能被匹配。
任务4:
实现结果的分页显示。
任务5:
若查询内容很多(超出字数限制),则对其智能分段,使各分段的查询内容长度合法,再分别进行多次查询,最后将结果整合。
任务6:
用Lucene对搜索结果按自定义的方式排序(根据不同的索引域),不再是仅按默认的相关性评分排序。
任务7:
实现结果的高亮显示。
任务8:
找出新浪微博的模板,为抽取微博内容做准备。
任务9:
摒弃之前在网页数据爬取时采用的是最原始的正则表达式匹配的方法(导致自己工作效率低,进展慢,因为对于每个不同的网页,都需要重新编写模板,这样灵活性不高,还很容易出错)。接下来熟悉使用已有的Html解析框架——Jericho Html Parser来解析爬取的数据。
任务10:
搜集资料,查阅一些相关网页查重算法的文献。为该过程设计一个总体思路:设计、选择匹配方法和相关度的衡量标准,以及对比对结果的展现形式。从网络尽量查找已实现的Java源代码。
任务11:
考虑到对网页的文本查重比对本地的纯文本文件困难得多,故先争取实现在本机上对本地文本文件的查重比对。
子任务1:
分别对检测文献与比对文献进行分层处理,按照篇章、段落、句子等层级分别创建指纹。(多层级分别对应比对指纹,得到各自的相关性系数。只要某一层级比对的相关性系数超过对应层级预设的阈值,即被能被查重系统发现。)
子任务2:
检测完毕后,生成结果报告,其内容包括:
1) 疑抄袭部分高亮显示。
2) 文章相似度,即相似内容占整体的比例 ,以百分比形式直观给出。
3) 论文的基本属性(篇章个数、段落个数、句子个数)各自的疑匹配个数。
任务12:
能顺利完成对本地文本文件的查重比对后,就展开对网页的查重比对。
注:网页文本的查重比纯文本困难得多,因为网页的页面源代码中还存在各种标签、导航、广告等(噪声),故在进行匹配前,需要进行网页的净化、消噪。而各网页模板不同,排版各异,网页的消噪算法也是有待研究的。
故此过程包括选择、实现网页的净化算法,和在消噪后提取出网页中有用的正文信息,再用之前确定的方法进行比对。