第二页
因此,这项技术采用了视觉和内容相结合的方法。首先,要根据用户阅读习惯,从视觉上分析一个网页可分为几块。它的原理是,先通过人工标注一些具有特征的块,比如内容块、广告块等等,作为训练样本,然后让机器学习,最后可获得一些模型。当分析某个网页时,便将其各个部分与模型进行比对,看它像哪个块。
从视觉上分好块之后,还要实现内容上的再构造。每个网页的HTML代码都可以看作一个树状结构,树上带有各个节点的信息,比如颜色等。系统要先将一个网页在内存中迅速构造为一个树状结构,但并不输出显示,而是根据需要有选择地将其重新显示在手机屏幕上。实际上,把一个网页构造成一个树状结构的工作量并不亚于一个普通浏览器的解析过程。目前,这项技术已实现几个毫秒处理一个网页,这个速度还是很可观的。
当然,这项研究也存在着有待进一步研究的方向,比如,对于一些带有JavaScript脚本、Flash和Word等复杂页面的支持。此外,将来还有可能将这一技术集成到手机浏览器的后端服务器中,以便实现直接的网页访问,而不用再像现在这样在搜索列表里访问页面。
记者 李洋
网友评论