DBC中期计划

r

中期计划的目标更为明确、具体,指标和措施较为详尽。

应用技术

缓存

自动讯价

多线程、并行计算

向量空间模型

平行计算

云计算

百度、Google搜索及索引技术

分布部署

测试驱动

迭代开发

工作内容

r

前期为公司产品做支撑,后期会对外提供服务。

需求

设计

开发

测试

组内测试

r

保证质量互为责任人二加快交接

数据库维护

文档维护

工作制度、流程

r

工作下达,上行。沟通有效。组内标准。如何有效执行,保障手段是什么?源码的管理制度数据库文档的维护数据库管理制度权限,责任人、第二责任人

预算

资源

人员

DBA

工作安排

充分利用,减少闲置

不绝对,配合测试需要预留

风险预留

预留时间来进行技术储备、组内测试

明确绩效标准

需要公司支持

量化指标

硬件

服务器

带宽

RAID

集群

测试驱动

打造数据网关

为客户提供优质可靠的商品、服务价格

有竞争力的价格

贴心服务

开发时间表及milestone

时间倒排

进度表

我在做什么?还能做什么?

以联嘉云网为出发点

眼放远

心放宽

目标

电子商务

指标

r

全面性要给客户提供非常全面的信息覆盖工作生活的方方面面。解决方案:通过采集行业前三供货商的商品服务丰富我们的数据。

供货商100家

数据

千万

r

准确性不能拿虚假的信息提供给客户搜索的准确解决方案:提高词库精度。定期确定数据完整性(是否已下架或已无此商品)把相似度很高的数据进行整合,多个供货商商品服务合并。解决方案:参考向量空间模型讯价

查询准确99%

价格准确99%

合并80%

半自动化

分词90%

r

实时性提供及时有效、有竞争力的价格。解决方案:调用这个数据的时候要从来源的网站重新查询(询价)搜索响应速度数据更新的效率解决方案:索引更新方式采用定期重采供货商前10页数据数据,降低全站重采的效率浪费。索引创建采用多线程。

实时性

与供货商同步

价格

信息

上下架

已有供货商前10页热卖商品采集

搜索毫秒级

Subtopic

策略、措施

工作项

r

提供底层支持IShop秘书工作台网络商城供货商比价网站

搜索

范围搜索的优化

辅助搜索字段

重构

分类统计

lucene优化

r

源码修改记录,记录在项目中。

采集

供货商数据分类

行业前3

确定供货商采集优先级

评论采集

保证频道覆盖率

C++>C#

品牌、型号为合并依据

这两个关键信息,提取单独处理模块。

脚本

目录

便于查找、更新信息

分类:供货商、频道

维护计划

数据组各项目公共部分提取

架构Review

数据采集客户端

数据合并

合并标准为品牌、商品型号

讯价

r

讯价的作用得到商品实时的价格。讯价的规则1. 不讯价的情况 3小时内更新的热门商品 1天内更新的非热门商品2. 自动讯价频率 热门商品2小时一次 热门商品2小时一次讯价的方式1. 考虑从购物车获得价格。购物车数据量最小,有可能需要通过Cookie传参数。2. 与供货商建立合作关系,由供货商提供价格接口。应用技术缓存 性能考虑Length为300万的HashTable会否有性能问题?如果对性能影响较大,可以考虑的几种拆分方式: 按频道(操作简单,但图书频道还是很大) 按InfoCode区间(大小不统一,拆分碎片可能过多) 热门/非热门 占用空间数据按300万计算: 商品InfoCodeList,占用17M左右。(InfoCode(6)*300万=17M) 商品价格,占用635M左右。(provider(40)+providerName(16)+price(6)+updateTime(10))*3>216*300万=635M 分类 商品价格数据作用:存储商品在各供货商实时售价。结构:HashTable(Key:InfoCode;Value:IList<ProviderPrice>) 商品InfoCode String[]作用:维护全部商品InfoCode列表,自动讯价使用结构:字符串数组。服务(自动讯价) 热门商品2小时一次 热门商品2小时一次多线程 线程池:讯价需要支持多并发。现有数据结构修改1. 增加热门商品记录字段。 GoodsInfo表加标识字段 索引加标识字段2. 商品分类 热门商品 非热闹商品接口定义讯价取商品最低价 参数:InfoCode 返回:ProviderPrice 逻辑:1. 接收InfoCode,判断是否讯价(通过UpdateTime)2. 生成最低价供货商URL和参数3. 抓取解析购物车HTML,取实时价格。4. 更新数据(如果价格改变)5. 返回ProviderPrice。取多个商品价格(推荐商品) 参数:"InfoCode,InfoCode,InfoCode" 返回:HashTable(Key:InfoCode;Value:IList<ProviderPrice>)指定商品在各供货商售价格比较 参数:InfoCode 返回:IList<ProviderPrice> 逻辑:1. 接收InfoCode2. 取缓存数据,判断是否讯价(通过UpdateTime)3. 调用讯价方法(foreach供货商)4. 更新数据(如果价格改变)商品价格更新 参数:InfoCode, IList<ProviderPrice> 返回:更新结果(成功/失败) 逻辑:1. 判断此次操作是 Insert还Update。新商品为Insert。2. 更新内容包括:缓存、数据库、索引。编辑热门商品状态 参数:InfoCode(可接收多个),状态(1表示热门商品 2表示非热门商品) 返回:更新结果(成功/失败) 逻辑:1. 更新数据库中商品状态2. 更新索引中商品状态3. 更新两个缓存实体类ProviderPrice属性 说明 类型providerId 供货商Id GuidproviderName 供货商名称 Stringprice 价格 DoubleupdateTime 更新时间 DateTime

商品

购物车页

服务

机票

酒店

票务

大麦网

中国票务通

接口

讯价取商品最低价

r

1.接收InfoCode,判断是否讯价(通过UpdateTime)2.生成最低价供货商URL和参数3.抓取解析购物车HTML,取实时价格。4.更新数据(如果价格改变)4.返回ProviderPrice。最低供货商无货,返回第二低供货商价格。

取多个商品价格(推荐商品)

指定商品在各供货商售价格比较

r

1.接收InfoCode2.取缓存数据,判断是否讯价(通过UpdateTime)3.调用讯价方法(foreach供货商)4.更新数据(如果价格改变)

商品价格更新

编辑热门商品

r

1.数据库2.索引3.两个缓存

单个性能要优于多个

r

在讯价中取商品价格优先级高于取同类商品价格。

讯价的规则

不讯价的情况

3小时内更新的热门商品

1天内更新的非热门商品

自动讯价频率

热门商品2小时一次

非热门商品1天一次

异常处理

讯价无结果使用原价格

延迟加载

讯价按功能按供货商及频道进行分类,便于维护。

索引创建

压缩

数据整理

体检

租车

数据库管理

非关系型数据库

数据分析

r

有互动通过客户反馈信息进行处理。

供货商评级

热门商品

服务质量

联嘉商品讯价

测试数据准确

现有数据结构修改

增加热门商品记录字段

GoodsInfo表加标识字段

索引加标识字段

商品分类

热门商品

非热闹商品

货比三家

供货商维护

合约

时间

范围

比例

到期供货商商品自动下架

数据接口

列表、单一、相关商品

jave lucene 分词

r

http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.htmlhttp://hi.baidu.com/lewutian/blog/item/0c117af8d0d92103d9f9fd9c.htmlhttp://hi.baidu.com/lewutian/blog/item/d2d723b73e377cf831add19c.html

a

工作优先级

以产生效果快速、显著排序

储备

Java Lucene测试

r

测试报告搜索速度、切词准备度、应用Java的可行性工作量分析