舆情服务平台

Main topic

2012-3-19

史仁仁

Mar19-Mar23

需求分析

Mar19-Mar23r

1.关键词用户/媒体关注热度2.关注趋势3.相关新闻4.相关的关键词5.偏好分析6.最终形成服务信息的形式注:a.显示关注上升和下降度,趋势图b.能判断新闻的正负性c.能总结新闻概要d.可以实现白名单,即可以限定网站范围来分析,可以限定专业领域来分析e.偏好包括地域、国家、城市、性别、年龄、专业和教育程度等等

技术探索

Mar19-Mar23r

研究百度指数index.baidu.com、谷歌趋势www.google.com/trends等,探索其现有的数据、信息和技术能否为我所用3.20一款叫做“追词”的软件www.zhuici.com百度指数分析软件C#访问百度指数:http://blog.csdn.net/amandag/article/details/5666215

a

云终端

Mar22r

桌面应用已修改(自动登录,图标重排)Ubuntu下虚拟机可以识别打印机,但是无法打印,可能是CUPS问题Windows打印机重定向问题:虚拟机需要安装打印驱动

Android

Mar23r

屏幕触屏缩放双向声音开关视频等

吴健

继续研究Nutch+Solr

学习Lucene基本功能

入门Hadoop

入门Mahout

2012-3-26

史仁仁

Mar26-Apr01

商业报告

Mar28-Mar31r

1功能2比较(主要功能上),3家——人民网、舆情网等,如查重、反盗链、反恶意爬行、反追踪等)3总体架构图(杰赛云平台(功能也添加与之相关的,如迁移)、hadoop、mahout、我们的软件、杰赛的短信网关等)4开发和维护(维护以每年新增网页1000/5人(大专学历即可)、新功能开发10人/年)

2010-4-16

爬取前分类爬取范围,一项公共的,一项是企业独有的,如企业相关政策、财经、证券//IT 、移动通信等等网站,按优先级爬取(在用户界面做成可配置的)

设计模板维护流程:一个独立的部门专门提供编写模板,(能提取未知网站数据,返回模板),生产者消费者???

2012-4-9

分阶段计划及目标

第一阶段

控制爬行范围来抓取原始文档

人工输入关键字、词或段落,查询结果按相关性排列展示,包括主题、链接、摘要

关键词聚类,自动获得舆情热点,取代人工输入

第二阶段

链接或内容排重,一些网页是对其他网页的转载或引用(可能爬虫已经做了)

分类查询或结果分类,可以有主体相关、竞争对手相关或相关专业领域新闻

情感分析,判断舆情新闻的正面、负面或中性之分

趋势分析或舆情预报,追踪热点关注度等发展趋势

(与百度交互)|本周:微博、博客,3个博客(模板,lucene爬),另外股票网站等{尝试如果百度有,就不需要去单独抓取博客}

Apr09-Apr13

第三阶段

进一步的分析、地区等偏好分析、统计报表等后续功能

???

2012-4-5

近期计划

任务1:
自动判断响应流的编码方式,从而做到自动适配编码方式。解决乱码问题,才能开展后续工作。

任务2:
用Lucene对页面内容进行索引、搜索,并能以Lucene的默认评分方式对结果进行自定义的排序。

任务3:
突破搜索引擎对查询内容的字数限制(如百度限制其在38个字数之内)。通过对查询内容的预处理,使对大段文字也能被匹配。

任务4:
实现结果的分页显示。

任务5:
若查询内容很多(超出字数限制),则对其智能分段,使各分段的查询内容长度合法,再分别进行多次查询,最后将结果整合。

任务6:
用Lucene对搜索结果按自定义的方式排序(根据不同的索引域),不再是仅按默认的相关性评分排序。

任务7:
实现结果的高亮显示。

任务8:
找出新浪微博的模板,为抽取微博内容做准备。

任务9:
摒弃之前在网页数据爬取时采用的是最原始的正则表达式匹配的方法(导致自己工作效率低,进展慢,因为对于每个不同的网页,都需要重新编写模板,这样灵活性不高,还很容易出错)。接下来熟悉使用已有的Html解析框架——Jericho Html Parser来解析爬取的数据。

任务10:
搜集资料,查阅一些相关网页查重算法的文献。为该过程设计一个总体思路:设计、选择匹配方法和相关度的衡量标准,以及对比对结果的展现形式。从网络尽量查找已实现的Java源代码。

任务11:
考虑到对网页的文本查重比对本地的纯文本文件困难得多,故先争取实现在本机上对本地文本文件的查重比对。

子任务1:
分别对检测文献与比对文献进行分层处理,按照篇章、段落、句子等层级分别创建指纹。(多层级分别对应比对指纹,得到各自的相关性系数。只要某一层级比对的相关性系数超过对应层级预设的阈值,即被能被查重系统发现。)

子任务2:
检测完毕后,生成结果报告,其内容包括:
1) 疑抄袭部分高亮显示。
2) 文章相似度,即相似内容占整体的比例 ,以百分比形式直观给出。
3) 论文的基本属性(篇章个数、段落个数、句子个数)各自的疑匹配个数。

任务12:
能顺利完成对本地文本文件的查重比对后,就展开对网页的查重比对。
注:网页文本的查重比纯文本困难得多,因为网页的页面源代码中还存在各种标签、导航、广告等(噪声),故在进行匹配前,需要进行网页的净化、消噪。而各网页模板不同,排版各异,网页的消噪算法也是有待研究的。
故此过程包括选择、实现网页的净化算法,和在消噪后提取出网页中有用的正文信息,再用之前确定的方法进行比对。