题名: | 基于DOM的Web信息提取 |
其他题名: | dom-based information extraction for the web sources
|
作者: | 李效东
; 顾毓清
|
关键词: | 归纳学习
; 文档对象模型
; 路径表达式
; XML
; 信息提取
; 提取规则
; 浏览器
; 归纳学习算法
; 重要构件
; 语言
; 页面信息
; 信息抽取
; 数据交换
; 基础设计
; 机器处理
; 获取信息
; 规则生成
; 对象模型
; 层次结构
; 数据源
; 包装器
; 半自动
; 坐标
; 组成
|
刊名: | 计算机学报
|
发表日期: | 2002
|
卷: | 25, 期:5, 页:526-533 | 收录类别: | wanfang
|
部门归属: | 中国科学院软件研究所,北京,100080;中国科学院软件研究所,北京,100080
|
摘要: | 当前,Web已经成为人们获取信息的主要渠道之一.然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点.HTML的"标记"只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义.因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理.该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的"坐标",并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类.生成的Java类可 |
语种: | 中文
|
内容类型: | 期刊论文
|
URI标识: | http://ir.iscas.ac.cn/handle/311060/13360
|
Appears in Collections: | 软件所图书馆_期刊论文
|
There are no files associated with this item.
|
Recommended Citation: |
李效东,顾毓清. 基于DOM的Web信息提取[J]. 计算机学报,2002-01-01,25(5):526-533.
|
|
|