目前互联网应用日益丰富,浏览器作为读取互联网信息的客户端,已经成为人们日常生活中不可或缺的重要工具。十几年来,浏览器自诞生之初便致力于提高信息浏览效率,但仅局限于优化网页打开速度,成效甚微。
目前互联网应用日益丰富,浏览器作为读取互联网信息的客户端,已经成为人们日常生活中不可或缺的重要工具。十几年来,浏览器自诞生之初便致力于提高信息浏览效率,但仅局限于优化网页打开速度,成效甚微。直至今日,随着搜狗高速浏览器3.0的发布,推出了“网页更新提醒”功能,解除了人们每天访问大量网页的辛劳,提出“让信息来找你”的概念,让信息查找效率得到的空前的提升。
搜狗浏览器“网页更新提醒”功能,是指在用户所关注的网页发生变化的时候,无需亲自去查看或刷新页面,搜狗浏览器会在后台智能“感知到”网页更新的关键内容,并且将“新内容”提示和展示给用户。更重要的是“网页更新提醒”不仅是简单的小提示,而是有信息的简短介绍以及图片展示等信息,大部分内容无需打开页面便可知悉。搜狗这一业界首创的浏览器“网页更新提醒”功能,在技术上遥遥领先于其它浏览器产品。
由于信息的展示空间有限,“网页更新提醒”功能在信息检索技术上比搜索引擎要求更高,对于呈现给用户的信息需要更加的精炼和规范。这就要求浏览器同时拥有强大的数据抓取能力、海量数据处理能力、数据挖掘能力以及个性化推荐技术,以完成网站选取、页面分析、数据压缩、云模版推荐等工作。如果不是搜狗长时间在搜索引擎研发方面的殷实积累,这将是一项很难实现的功能。
搜狗高速浏览器“网页更新提醒”功能的技术难点主要体现在以下五个方面:
第一,适合网站的选取。通过分析众多用户共同行为,后台的服务自动计算用户在每个页面的关注区域,自动找出适合做更新提醒展现的网站,并且为每个用户找到其对应的用户热点区域。整个分析过程实现了实时、自动化、分布式的计算方式,因此搜狗浏览器可以做的数万级别的更新提醒的支持。
第二,网站页面的分析。需要分析出网页的结构,提取需要的信息,难度不低于搜索引擎中的页面分析(PA)技术。而且是要直接应用于用户界面做直观展现,因此分析的精度要求需要比搜索引擎还高。在这一环节中,网页的分析模块是搜狗浏览器自有开发的,可根据其自身的需要定制功能,较以往的网页解析模块,“更新提醒”的解析方式更加灵活高效。
第三,身份隔离系统。微博、邮箱、论坛等网站需要登录才能获取信息,这类需要身份认证的网站,采用cookie读取、跟随Web登录协议、开放API等多重技术,取得用户身份,获取个性化数据。同时设计实现了身份隔离系统,避免后台抓取身份污染前台浏览行为,达到对非更新提醒用户的零干扰。
第三,自适应更新间隔。对于不同类型网站,或个性化网站不同用户,用户能够接受的更新间隔不同。客户端根据网站自身内容的更新频率,自动调整抓取间隔,在节约资源和满足用户需求间取得平衡。比如新邮件需要及时,而微博新闻等则不那么迫切,在平衡用户需求和带宽及计算性能方面也要经过细致的调整,最终达到良好效果。
第四,多元信息模板。网站表现千差万别,为给用户提供一致的展现形式,制定自有数据格式,需要将各类网页资源整合为统一数据表示,进而在消息盒子、弹出气泡中聚合阅读。由于“网页更新提醒”涉及到各类网站中的文字、图片等多种元素匹配和展现,这就需要根据不同的网站定制不同的模版。
第五,云推荐系统保障时效性。有些网站会因改版而致使之前的表示方法实效,因此需要对各个网站进行实时抓取。实时的页面分析和数据更新,这是数据的抓取以及分析能力的考验,难度相当于输入法的新词发现以及搜索引擎的时效性搜索。搜狗根据用户的访问行为自动计算新模板,并通过云推荐机制给用户更新,保证了用户模板有效性。此外,云推荐系统结合数据挖掘技术,通过海量数据分析,可以根据每用户的偏好和行为推荐用户新模板和网站。
最后,兼容性。由于历史原因,为数众多的网站存在不符合标准的源码实现,需要在大量网站上实验解决页面的兼容问题,这也是一项非常重要的工作,要针对数以万计的互联网站点不断的进行调整、修改和优化,以达到完美的用户体验。
综合上述,搜狗高速浏览器“网页更新提醒”,并不是简单的在浏览器中添加的一个功能,而是融合了诸多创新技术,创造了一个全新的浏览方式,尤其是搜索引擎技术的引入,是一款能够影响到整个浏览器行业发展方向的产品。搜狗相关负责人表示:“通过创新的手段,提升用户上网效率,才是实现了高速的直正意义,传统以提升网页加载速度的手段,已经不足以满足用户的上网需求,搜狗浏览器目前已经通过“网页更新提醒”功能实现了一大步的跨越。“
网友评论