ISCAS OpenIR
基于DOM的Web信息提取
Alternative Titledom-based information extraction for the web sources
李效东; 顾毓清
2002
Source计算机学报
ISSN0254-4164
Volume25Issue:5Pages:526-533
English Abstract当前,Web已经成为人们获取信息的主要渠道之一.然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点.HTML的"标记"只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义.因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理.该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的"坐标",并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类.生成的Java类可
Indexed Typewanfang
Keyword归纳学习 文档对象模型 路径表达式 Xml 信息提取 提取规则 浏览器 归纳学习算法 重要构件 语言 页面信息 信息抽取 数据交换 基础设计 机器处理 获取信息 规则生成 对象模型 层次结构 数据源 包装器 半自动 坐标 组成
Department中国科学院软件研究所,北京,100080;中国科学院软件研究所,北京,100080
Language中文
Content Type期刊论文
URIhttp://ir.iscas.ac.cn/handle/311060/13360
Collection中国科学院软件研究所
Recommended Citation
GB/T 7714
李效东,顾毓清. 基于DOM的Web信息提取[J]. 计算机学报,2002,25(5):526-533.
APA 李效东,&顾毓清.(2002).基于DOM的Web信息提取.计算机学报,25(5),526-533.
MLA 李效东,et al."基于DOM的Web信息提取".计算机学报 25.5(2002):526-533.
Files in This Item:
There are no files associated with this item.
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[李效东]'s Articles
[顾毓清]'s Articles
Baidu academic
Similar articles in Baidu academic
[李效东]'s Articles
[顾毓清]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[李效东]'s Articles
[顾毓清]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.