中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 软件所图书馆  > 期刊论文
题名:
基于DOM的Web信息提取
其他题名: dom-based information extraction for the web sources
作者: 李效东 ; 顾毓清
关键词: 归纳学习 ; 文档对象模型 ; 路径表达式 ; XML ; 信息提取 ; 提取规则 ; 浏览器 ; 归纳学习算法 ; 重要构件 ; 语言 ; 页面信息 ; 信息抽取 ; 数据交换 ; 基础设计 ; 机器处理 ; 获取信息 ; 规则生成 ; 对象模型 ; 层次结构 ; 数据源 ; 包装器 ; 半自动 ; 坐标 ; 组成
刊名: 计算机学报
发表日期: 2002
卷: 25, 期:5, 页:526-533
收录类别: wanfang
部门归属: 中国科学院软件研究所,北京,100080;中国科学院软件研究所,北京,100080
摘要: 当前,Web已经成为人们获取信息的主要渠道之一.然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点.HTML的"标记"只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义.因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理.该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的"坐标",并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类.生成的Java类可
语种: 中文
内容类型: 期刊论文
URI标识: http://ir.iscas.ac.cn/handle/311060/13360
Appears in Collections:软件所图书馆_期刊论文

Files in This Item:

There are no files associated with this item.


Recommended Citation:
李效东,顾毓清. 基于DOM的Web信息提取[J]. 计算机学报,2002-01-01,25(5):526-533.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[李效东]'s Articles
[顾毓清]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[李效东]‘s Articles
[顾毓清]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2017  中国科学院软件研究所 - Feedback
Powered by CSpace