Kategoriak: All - 分析 - 数据 - 技术 - 任务

arabera wizardroid shi 12 years ago

916

舆情服务平台

舆情服务平台致力于提供全面的用户需求分析和技术探索。平台包括关键词热度、趋势分析、新闻正负性判断等功能,用户可以限制分析网站和领域。技术探索方面,研究百度指数和谷歌趋势,开发了名为“追词”的软件,并学习了Hadoop、Lucene、Mahout等技术。近期计划包括突破查询字数限制、改进网页爬取方法、实现页面内容索引与自定义排序、文本查重比对等。任务涵盖了从查询内容预处理、使用Html解析框架、自动判断编码方式、智能分段查询到查重比对等多方面。

舆情服务平台

舆情服务平台

2012-4-5

近期计划
任务12: 能顺利完成对本地文本文件的查重比对后,就展开对网页的查重比对。 注:网页文本的查重比纯文本困难得多,因为网页的页面源代码中还存在各种标签、导航、广告等(噪声),故在进行匹配前,需要进行网页的净化、消噪。而各网页模板不同,排版各异,网页的消噪算法也是有待研究的。 故此过程包括选择、实现网页的净化算法,和在消噪后提取出网页中有用的正文信息,再用之前确定的方法进行比对。
任务11: 考虑到对网页的文本查重比对本地的纯文本文件困难得多,故先争取实现在本机上对本地文本文件的查重比对。

子任务2: 检测完毕后,生成结果报告,其内容包括: 1) 疑抄袭部分高亮显示。 2) 文章相似度,即相似内容占整体的比例 ,以百分比形式直观给出。 3) 论文的基本属性(篇章个数、段落个数、句子个数)各自的疑匹配个数。

子任务1: 分别对检测文献与比对文献进行分层处理,按照篇章、段落、句子等层级分别创建指纹。(多层级分别对应比对指纹,得到各自的相关性系数。只要某一层级比对的相关性系数超过对应层级预设的阈值,即被能被查重系统发现。)

任务10: 搜集资料,查阅一些相关网页查重算法的文献。为该过程设计一个总体思路:设计、选择匹配方法和相关度的衡量标准,以及对比对结果的展现形式。从网络尽量查找已实现的Java源代码。
任务9: 摒弃之前在网页数据爬取时采用的是最原始的正则表达式匹配的方法(导致自己工作效率低,进展慢,因为对于每个不同的网页,都需要重新编写模板,这样灵活性不高,还很容易出错)。接下来熟悉使用已有的Html解析框架——Jericho Html Parser来解析爬取的数据。
任务8: 找出新浪微博的模板,为抽取微博内容做准备。
任务7: 实现结果的高亮显示。
任务6: 用Lucene对搜索结果按自定义的方式排序(根据不同的索引域),不再是仅按默认的相关性评分排序。
任务5: 若查询内容很多(超出字数限制),则对其智能分段,使各分段的查询内容长度合法,再分别进行多次查询,最后将结果整合。
任务4: 实现结果的分页显示。
任务3: 突破搜索引擎对查询内容的字数限制(如百度限制其在38个字数之内)。通过对查询内容的预处理,使对大段文字也能被匹配。
任务2: 用Lucene对页面内容进行索引、搜索,并能以Lucene的默认评分方式对结果进行自定义的排序。
任务1: 自动判断响应流的编码方式,从而做到自动适配编码方式。解决乱码问题,才能开展后续工作。

2012-4-9

分阶段计划及目标
第三阶段

???

进一步的分析、地区等偏好分析、统计报表等后续功能

第二阶段

(与百度交互)|本周:微博、博客,3个博客(模板,lucene爬),另外股票网站等{尝试如果百度有,就不需要去单独抓取博客}

趋势分析或舆情预报,追踪热点关注度等发展趋势

情感分析,判断舆情新闻的正面、负面或中性之分

分类查询或结果分类,可以有主体相关、竞争对手相关或相关专业领域新闻

链接或内容排重,一些网页是对其他网页的转载或引用(可能爬虫已经做了)

第一阶段

关键词聚类,自动获得舆情热点,取代人工输入

人工输入关键字、词或段落,查询结果按相关性排列展示,包括主题、链接、摘要

控制爬行范围来抓取原始文档

2010-4-16

设计模板维护流程:一个独立的部门专门提供编写模板,(能提取未知网站数据,返回模板),生产者消费者???
爬取前分类爬取范围,一项公共的,一项是企业独有的,如企业相关政策、财经、证券//IT 、移动通信等等网站,按优先级爬取(在用户界面做成可配置的)

2012-3-26

商业报告

1功能

2比较(主要功能上),3家——人民网、舆情网等,如查重、反盗链、反恶意爬行、反追踪等)

3总体架构图(杰赛云平台(功能也添加与之相关的,如迁移)、hadoop、mahout、我们的软件、杰赛的短信网关等)

4开发和维护(维护以每年新增网页1000/5人(大专学历即可)、新功能开发10人/年)

2012-3-19

吴健
入门Mahout
入门Hadoop
学习Lucene基本功能
继续研究Nutch+Solr
史仁仁
Android

屏幕触屏缩放

双向声音开关

视频等

云终端

桌面应用已修改(自动登录,图标重排)

Ubuntu下虚拟机可以识别打印机,但是无法打印,可能是CUPS问题

Windows打印机重定向问题:虚拟机需要安装打印驱动

技术探索

研究百度指数index.baidu.com、谷歌趋势www.google.com/trends等,探索其现有的数据、信息和技术能否为我所用

3.20一款叫做“追词”的软件www.zhuici.com

百度指数分析软件

C#访问百度指数:http://blog.csdn.net/amandag/article/details/5666215

需求分析

1.关键词用户/媒体关注热度

2.关注趋势

3.相关新闻

4.相关的关键词

5.偏好分析

6.最终形成服务信息的形式

注:a.显示关注上升和下降度,趋势图

b.能判断新闻的正负性

c.能总结新闻概要

d.可以实现白名单,即可以限定网站范围来分析,可以限定专业领域来分析

e.偏好包括地域、国家、城市、性别、年龄、专业和教育程度等等

Main topic