af wizardroid shi 12 år siden
931
子任务2: 检测完毕后,生成结果报告,其内容包括: 1) 疑抄袭部分高亮显示。 2) 文章相似度,即相似内容占整体的比例 ,以百分比形式直观给出。 3) 论文的基本属性(篇章个数、段落个数、句子个数)各自的疑匹配个数。
子任务1: 分别对检测文献与比对文献进行分层处理,按照篇章、段落、句子等层级分别创建指纹。(多层级分别对应比对指纹,得到各自的相关性系数。只要某一层级比对的相关性系数超过对应层级预设的阈值,即被能被查重系统发现。)
???
进一步的分析、地区等偏好分析、统计报表等后续功能
(与百度交互)|本周:微博、博客,3个博客(模板,lucene爬),另外股票网站等{尝试如果百度有,就不需要去单独抓取博客}
趋势分析或舆情预报,追踪热点关注度等发展趋势
情感分析,判断舆情新闻的正面、负面或中性之分
分类查询或结果分类,可以有主体相关、竞争对手相关或相关专业领域新闻
链接或内容排重,一些网页是对其他网页的转载或引用(可能爬虫已经做了)
关键词聚类,自动获得舆情热点,取代人工输入
人工输入关键字、词或段落,查询结果按相关性排列展示,包括主题、链接、摘要
控制爬行范围来抓取原始文档
1功能
2比较(主要功能上),3家——人民网、舆情网等,如查重、反盗链、反恶意爬行、反追踪等)
3总体架构图(杰赛云平台(功能也添加与之相关的,如迁移)、hadoop、mahout、我们的软件、杰赛的短信网关等)
4开发和维护(维护以每年新增网页1000/5人(大专学历即可)、新功能开发10人/年)
屏幕触屏缩放
双向声音开关
视频等
桌面应用已修改(自动登录,图标重排)
Ubuntu下虚拟机可以识别打印机,但是无法打印,可能是CUPS问题
Windows打印机重定向问题:虚拟机需要安装打印驱动
研究百度指数index.baidu.com、谷歌趋势www.google.com/trends等,探索其现有的数据、信息和技术能否为我所用
3.20一款叫做“追词”的软件www.zhuici.com
百度指数分析软件
C#访问百度指数:http://blog.csdn.net/amandag/article/details/5666215
1.关键词用户/媒体关注热度
2.关注趋势
3.相关新闻
4.相关的关键词
5.偏好分析
6.最终形成服务信息的形式
注:a.显示关注上升和下降度,趋势图
b.能判断新闻的正负性
c.能总结新闻概要
d.可以实现白名单,即可以限定网站范围来分析,可以限定专业领域来分析
e.偏好包括地域、国家、城市、性别、年龄、专业和教育程度等等