LYWILL设计运营 - 网站运营与推广、开发技术、成功项目展示。

一淘网技术及运营思考

         一淘网(etao.com)的技术架构及设计运营思路很有借鉴意义:“丰富的商品基础,放眼全网的导购资讯。在这里,我们全程为您解决购前和购后遇到的种种问题,我们的目标是在购物的过程中助您一臂之力,帮您轻松决策、更快找到物美价廉的商品。”

        系统架构

  一淘有三个数据来源:互联网、外部合作方和淘宝主站。其中,互联网数据通过crawl的方式获得,而后两者则通过feed的方式提供。

 

  抓取系统的功能包括:网页抓取、抓取调度、域名解析、死链检测、JavaScript执行等。目前,一淘的资讯、话题、问答combo中的大部分数据都是通过抓取系统从互联网获得的。它是一淘一个重要的“原料厂”。

 

  离线处理系统是一个功能众多、可灵活定制的Pipeline,其主要功能有:网页编码识别与转换、网页解析与内容抽取、购物相关站点发现、列表页识别、网页分类与消重、链接提取与合并、关键词提取、众多网页静态feature的提取。它是一淘的“加工厂”。

 

  存储系统负责存储抓取系统和离线处理系统的产出,同时向这两个“厂”提供高性能、大容量的存取服务。目前我们采用的是Hadoop+HBase的体系结构,将网页、链接、图片进行了分类存放。存储系统是一淘存放原料、半成品的“核心仓库”。相关报道

 

  在线引擎负责对一淘前端搜索请求返回查询结果,它生成索引的数据来自存储系统。在线引擎是一淘面向用户的“成品生产车间”。值得一提的是,一淘采用了阿里集团新一代的HA2引擎技术,HA2结合了开源引擎和阿里上一代引擎技术的设计优点,在支持全文检索的同时,兼备了商品搜索的各种功能。它目前提供的主要特性有:

 

  数据规模:支持的数据规模从一台机器(partition)到几百台机器;更新速度:支持全量数据更新,以及最快支持分钟级的增量更新;数据类型:允许用户定义各种的数据类型,从单字段到几十个字段。字段的类型可以是text, string, number等;查询语法:支持简单的单一条件查询, 以及复杂的各种条件组合查询、过滤;相关性计算:支持最多三阶段相关性计算,提供丰富的信息供用户自定义每一个阶段的算分方法;统计导航:支持对检索到的结果做灵活的分组统计和智能导航。一淘前端负责向终端用户展现搜索结果页,它是一淘的“门店”,设有各式各样橱窗:商品、淘吧、资讯、论坛、问答、图片、网页等。保证这个门店正常运转的机制包括:

 

  Bootstrap:负责查询词合法性检查、编码识别与转换、停止词和违禁词过滤。Query Planner:负责查询词重写(Query Rewrite)、主辅词识别、商品类目预测、Combo排序、大小写转换、同义词和多义词,等等。RMOD:负责向各类后端服务接口发起并发请求,并将返回结果进行整合用于页面展现。Cache:负责分布式缓存搜索结果数据,从而缩短响应时间,提高前端系统的吞吐量。此外,为了一淘团队的运营效率,我们还在构建一套“从收集Query和Click日志开始,进行数据统计、关联分析、异常报警和人工调整等相关流程”的以Query为中心的运营工具。

 

  一淘的小二们深知:如何使我们打造的这些橱窗所展现的内容具有越来越精准的 “导购相关性”,是一淘面向用户的核心价值。如何进入朝这个方向持续发展的正循环呢?我们目前的思路是:构建一套结合“Query分析”和“网页分析”的多层次排序模型,在保证相关性的前提下,灵活快速地调整模型结构以适应变化的业务需求。

  此次淘宝推出全网搜索引擎则被认为是在搜索领域的深化。淘宝在商品搜索上已经拥有一定优势。据FT中文网报道,握有70%网购份额、90%C2C份额的淘宝在封了百度搜索后发展到现在,其商品搜索,无论是质还是量,都是百度现在不能比的。而网购已成搜索越来越重要的下一个应用。

        有网购专家认为,淘宝推全网搜索引擎是为大淘宝整体的战略布局考虑,提供独立的搜索入口,一淘网将原来“小淘宝”中的搜商品和买商品的买家从小淘宝分离出来,为大淘宝将流量输送链梳理清晰。