标准论文网致力于提供经济、法律、医学、管理、体育、教育等论文范文。
加入收藏 联系我们 信誉保证 网站地图
标准论文网创建10周年
站内搜索:
热门:
您当前的位置:> 1000字论文 > 论文内容

基于Web挖掘的化学物质信息提取应用研究

加入收藏〗 发布时间:2012-09-21

  针对多信息源网站中化学物质信息的获取与数据库的更新查询问题,运用网络爬虫技术和包装器方法实现数据的抽取;采用自定义文件的方式,提出了任务分割、动态更新检查、失败重试机制方法,实现了动态信息源网站中化学物质信息的持续、实时抽取,并进行异常处理和监控。将抽取的数据运用正则表达式和排序算法进行预处理并构建全面而准确的化学品环境安全数据库,最终实现了对原有数据的更新查询,在一定程度上保证了可靠性、可用性、可扩展性、可维护性。
  作为世界上最大的信息资料库,已经成为化学工作者快速获取信息的主要途径。然而Web信息的急速膨胀,对化学工作者如何大规模的获取和有效利用分布在上的化学资源方面提出了一个巨大的挑战。解决这一问题的基本思路是建立网络资源与其网址的索引。目前在化学领域已经建立起了几个比较有代表性的化学资源导航系统,虽然已有了以上诸多的的化学导航系统,但其目前主要靠人工来搜集资源。如果单纯地采用人工方式去查找和处理信息,会对人力资源大大浪费。
  而且当信息源站点数据更新后,靠人工发现非常困难,而且更容易出错。为此,希望能有一套计算机软件系统自动地持续地获取国内外一些权威的网站中化学物质的相关数据,从而提高信息获取的效率和数据的准确性。在计算机领域,基于Web挖掘技术日益成为人们研究的热点问题。现有的Web信息提取方法包括基于自然语言方式、基于包装器、基于方式、基于(HTML)结构、基于Web查询等信息抽取方法,但无论是自然语言处理还是包装器技术,只是针对一个特定的信息源,一个特定主题和领域,目前在很多行业和领域都可以看到垂直搜索引擎的应用研究,然而第33卷第8期冯硕,李书琴,杨会君:基于Web挖掘的化学物质信息提取应用研究在化学领域应用较少。
  本文在研究现有抽取程序的基础上,实现自动抽取指定网站中化学信息并集成到数据库,以解决人工手动获取信息效率低下和准确率低等问题。主要研究如何对多信息源网站中化学物质信息的获取与集成、构建信息全面准确的化学物质信息数据库,为建立新化学物质生态危害影响模型与预测评价体系准备基础数据。本文将根据系统结构组织分3个层次,即业务层、数据访问层、交互层,本文首先介绍数据获取与预处理,它属于业务层,是系统的核心;然后介绍数据查询和更新,它包括数据访问层和交互层:数据访问层主要是操作数据库和一些可复用的工具类,交互层主要是系统与用户的交互界面。
  数据获取与预处理数据获取与预处理的目标是从国内外一些权威的网站中抽取化学物质的基本信息及其相关属性如熔沸点、降解性、等结构化数据,这些结构化数据存储在统一的数据结构中,从而实现异构数据的统一。主要模块包括网页获取、信息抽取、数据预处理和任务调度。
  数据的动态获取网页获取与信息抽取是数据获取的两个核心模块,为动态获取网站中的化学物质信息,本文提出任务分割、重试机制、动态更新检查等一些相关技术。
  网页获取通过对所选信息源网站进行分析,发现大部分网站的网页属于动态网页,个别属于静态网页,静态页面的直接以HTML超链接形式嵌在客户端网页的HTML文件中。
  针对静态网页,根据聚焦爬虫技术,分析要抓取页面的特点,在描述和定义抓取目标的基础上,根据网页内容进行分析,收集跟主题相关的网页,然后对该网页进行解析,提取将该网页中的URL保存到预先设定的队列中。
  然后,根据基于内容评价的搜索策略从该队列中选择有用的链接,并将页面保存到本地,然后重复上述过程,直到该网站中所有相关的网页均被下载为止。所有被爬虫抓取的网页将会被系统存贮。具体流程如图所示。
  而动态网页,一般是由预定义的模板或服务器端脚本,通过临时填充后台数据库中的信息生。一般搜索引擎不可能访问到一个动态网站中全部网页。所以本文根据网页的特点模拟人工点击浏览过程,通过提交表单、建立会话,获得网页。
  动态网页获取的具体流程:首先通过对所选择的几个动态站点进行分析,找到数据所在的网页,以及这些网页的拓扑结构,然后对网页的源代码进行解析和对脚本语言分析,动态生成,获取该网站的,建图静态网页获取流程立会话,进而读取相关的页面,最后将抓取到的页面存储到本地磁盘。为了避免耗费不必要的时间无限制地等待响应缓慢的服务器或者规模庞大的网页,因此设置了超时机制。如果一个网页在内不能下载,则需要重试下载。对于具体网址只会重新下载3次,如果3次都不能下载,则不再下载该网页。具体流程如图所示。
  图动态网页获取的流程信息抽取对网页信息进行结构化信息抽取,也就是从网页的非结构化、半结构化数据中抽取出结构化数据。对所选信息源网页面进行分析,发现页面中数据属于半结构化信息,因而本文采用基于包装器的信息抽取技术,抽取相对结构化的数据。而包装器就属于结构化信息抽取技术中基于模板的方法,由一系列的抽取规则以及应用这些规则的计算机程序代码组成,将同一类网站中的特定数据按要求提取出来。本文根据数据项左右边界来定位数据项,实现对不同信息源信息的抽取。
  根据对网页信息特点和语言的分析,生成的(DOM)通过对DOM树结构和目标数据项所在位置进行分析,根据树中对应的节点确定目标数据项的定界符——即对感兴趣语义项的上下文描述,从而该数据项被唯一确定。尽可能找到所需数据对应标签的等能够唯一标识该数据的属性,或其标签的父亲、兄弟或计算机工程与设计2012结点从而间接的找到本文所需的数据项。
  本文将一次性大数据量抽取过程分为多次持续抽取过程。
  经过观察分析,发现所选取的几个信息源网站有一定的共性,都有该网站包含总物质数,数据库端物质排序有规律等。因此,从开始抽取,每次抽取任务结束后都记录任务信息,下次任务开始时,读取任务信息,在上次的基础上继续抽取,这样就可以分多次持续并且无重复地进行对将整个数据库中的信息抽取出来,有效地避免了一次性全部抽取带来的问题。
  结束语本文实现了对指定信息源网站中化学物质信息的自动获取,并将其集成,实现数据库的实时更新,为用户查询时提供最新数据,同时为后期建立新化学物质生态危害影响模型与预测评价体系准备基础数据;用户可以查询所需的化学物质相关信息,并提供了简单的统计信息。本文设计时采用的技术都是可靠的经过大量测试和实践验证,保证了系统的统一、松散耦合原则,实现了系统的可靠性、可扩展性、自动化、可维护性。由于本文信息抽取时是针对不同的网站编写不同的抽取规则,因而系统的查准率较高,但正因为如此,若新增加网站,就需要编写新的抽取规则,通用性不好。
  当下出现的一些脚本工具 (比如),可以将简单逻辑脚本化 (可配置,逻辑作为脚本引擎的参数),如果将抽取规则脚本化,当信息源网站页面结构发生变化时,只需在线配置、测试抽取规则即可,响应变化非常快。

    优秀论文范文分享:
    联系地址: 上海市杨浦区邯郸路(临复旦大学校区)邮编:200000 网站合法性备案号:蜀ICP备09029270号-1
    Copyright © 2002-2014 www.bzlunwen.com All Rights Reserved. 版权所有