推荐内容
如果一个搜索引擎能理解布局的一个网页,并找出最重要的网页的一部分,它可以多加留意该段页的时候,索引的内容从一页。
它可以给链接,发现该段的网页更多的重量比链接,在其他章节的一页,它可以考虑信息这一领域分量越来越重的时候,确定哪些网页是可以的。
我们已经见到太多的想法打破页面分成部分,由一对夫妇的主要商业搜索引擎:
微软贵宾及座一级链接分析 ( PDF格式)
Google公司-文件分割基于V isual空白
申请了专利,雅虎探讨了如何近似布局的一个网页,而不真正展示了一页,作为一个网页的方式浏览器程式。
实际上没有绘制一个网页就像一个浏览器可能使得这一进程加快,这一点很重要,当一个搜索引擎已经看地段和地段的网页。
该专利申请还探讨了如何确定哪些最重要的第一个网页可能来自近似版的版面。该专利申请是:
技术逼近可视化布局的一个网页,并确定了部分网页载有显着的内容
anandsudhakar柯斯里发明
美国专利申请20080033996
2008年2月7日公布
2006年8月3日提起
这里的抽象,从专利申请:
以近似的视觉布局的一个网页,又不至于使这一页,一个对象树代表元素内页是递归走过来确定界的宽度元素,导致下界为诱导非叶节点元素在这些节点和上界诱发的祖先和兄弟姐妹的节点。
对于每个元素,所需的最低限度的宽度(下界) ,理想的宽度,有没有限制,并把最高可宽(上线)的基础上的限制,父母是计算机,和一种近似宽度是由此衍生的。
定位过程中的位置,每个元素及其相应的母公司集装箱与时俱进的光标根据元素近似宽度和适当的限制。
该元素包含了最有意义的内容是确定的基础上,量加权内容元素及其位置页。
信息提取系统及数据结构
该方法的信息可能被提交对网站的人往往可以形容为结构化,半结构,或非结构化。
结构,即页是用一个共同的布局或模板,并含有相同的信息等新领域,从一个页面到另一个地方。
半结构化的网站可能使用的模板,也有多项变化给他们。例如,一个网页可能包括了信息领域的其他页面不有,或某些网页可能显示更广泛的信息和价值观。
一些网站可以用一个结构完整格式可能包括工作场所,或者旅游网站,或电子商务的产品页面。
大多数的页面上的其中一人的网站可能会显示出所有相同的信息领域,从一个网页向另一个,如果没有信息,以填补企业外,外地表明无论如何,但可能显示,有没有这方面的资料是什么场。网上书店可能成立的,这样,太。
半结构格式只是可能不会显示领域是空的,还是可能会出现一些新的领域,如果有独特的资料,以证明。
信息提取( IE )的系统,用来搜集和操纵者非结构化和半结构化的信息网络和填充后端数据库与结构化记录。
挑战之一所面临的一个信息提取系统,以快速,准确地提取资料,从HTML页。
那么,请问在一个信息抽取系统找到好东西就一页充满HTML代码,并绕过无用的内容?
它可能会寻找一些线索,从HTML格式,如
(一)作风建设的内容,一样的颜色,有所侧重,大小等;
(二)几何布局的页面元素的一页,像绝对值和相对值配售的要素,以及
(三)在视觉上显着的地区对页,其中似乎包含的主要内容。
看HTML来获得线索约布局和哪一段很可能会包含的主要内容是一个网页可能很困难,如果没有用的东西就像一个浏览器显示一个网页的方式,人们实际上看到它。
但成本看一个网页中,这样可以在计算上昂贵的,如果一个好的逼近可以做的,这并不涉及到这样的牺牲,那么,它可能是理想的信息提取的目的。
找出最重要的一个部件页
搜索引擎并非真想给予过多的关注章节的一页,它可能考虑很吵,如导航酒吧,或旗帜或有针对性的广告时,从中提取资料的一页。
它可能是不希望把重点放在了一个注脚的一个组成部分,网页,信息像版权公告,或头的一个网页,其中可能包含一幅图案反复从一个网页向另一工地。
最重要的要素之一,网页会估计,这个可视化布局过程中,试图找出该元素包含了大部分的有意义的内容就一页。
认为最重要的要素之一,页面将基于金额加权内容要素和立场与分子内部的一页,作为近似,由可视化布局进程。
结论
专利申请进入了很多详细的估算方法布局的一个网页,并理解的立场分子的一个网页,以及找出最重要的组成部分页面。
如果你建立网页,你希望你的想法如何,搜索引擎可能会看,重内容,您的网页,你可能想花一些时间与这个专利申请。
考虑到Google和微软也发展了办法部分内容的网页,这不是一个好主意,得到的感觉如何,他们都可能被打破页面分成部分。







评论列表