您的当前位置:首页正文

一种网页正文提取方法及装置[发明专利]

2024-08-14 来源:品趣旅游知识分享网
专利内容由知识产权出版社提供

专利名称:一种网页正文提取方法及装置专利类型:发明专利

发明人:李克学,范莹,戴鸿君,王传国,刘永申请号:CN201510066697.7申请日:20150209公开号:CN104615728A公开日:20150513

摘要:本发明提供了一种网页正文提取方法及装置,该方法包括:提取待提取网页的所有语义块;将所述待提取网页均匀分割成多个区域块;对所有区域块进行预设个数次随机抽样;确定被抽中的区域块所在的语义块;计算出每个语义块的抽样分布概率;确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。本发明提供了一种网页正文提取方法及装置,能够提高提取网页正文的速度。

申请人:浪潮集团有限公司

地址:250100 山东省济南市高新区浪潮路1036号

国籍:CN

代理机构:济南信达专利事务所有限公司

代理人:李世喆

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容