Eric Armstrong

SAX一章中已经编写了包含用于放映的幻灯片的XML文件。然后又使用SAX APIXML回送到显示器。

本章中,将使用文档对象模型(DOM)建立一个小的SlideShow应用程序。首先构建DOM并查看它,然后看看如何编写XML结构的DOM ,将它显示在GUI中,并且操作树结构。

文档对象模型是普通的树结构,每个节点包含一个来自于XML结构的组件。两种最常见的节点类型是元素节点(element node)和文本节点(text node)。使用DOM函数能够创建节点、删除节点、改变节点内容并且遍历节点层次。

本章将解析现有的XML文件以构建DOM,显示并查看DOM的层次结构,将DOM转换成能够友好显示的Jtree,并且展现命名空间的语法。你将从头开始创建一个DOM,并且了解如何使用SunJAXP实现的一些特定实现性能将现有的数据集转换成XML

首先要确信,在你的应用程序中DOM是最好的选择。下一节何时使用DOM将具体介绍它。


注意:可以在下面的页面中找到本章的例子<JWSDP_HOME>/docs/tutorial/examples/jaxp/dom/samples.

何时使用DOM

文档对象模型 (DOM) 是一个文档标准(例如,文章和书)。另外,JAXP 1.2实现支持XML Schema,在任何给定的应用程序中必须慎重考虑这一点。

另外,如果你正在处理简单数据结构,并且XML Schema不是你计划的一部分,那么你可能会发现一个面向对象的标准如JDOM dom4j 更加适合于实现你的目标。

DOM从一开始就是一种与语言无关的模型。这是因为它专门用于像CPerl这类语言,没有利用Java的面向对象的性能。这个事实再加上文档/数据定义,也能帮助解释处理DOM和处理JDOMdom4j结构之间的区别。

本节中,将讨论遵守这些标准的模型之间的区别,以便能够帮助你为应用程序选择最合适的模型。

  文档vs.数据

DOM中使用的文档模型和JDOMdom4j中使用的数据模型的主要区别在于:

·   层次结构中的节点类型

·   “混合内容”的性能

正是构成数据层次结构的 “节点” 的不同造成了这两个模型之间编程的区别。然而,只有混合内容的性能能解释不同标准定义“节点”有何区别。所以,首先来看看DOM的“混合内容模型”。

混合内容模型

回想在对文档-驱动编程 (DDP) 的讨论中,可以将文本和元素自由结合到DOM层次结构中。这种结构被称为DOM模型中的“混合内容”。

文档中经常出现混合内容。例如,为了表示该结构:

<sentence>This is an <bold>important</bold> idea.</sentence>

DOM节点的层次结构看起来跟下面的很像,其中每行代表一个节点:

ELEMENT: sentence

  +  TEXT: This is an

  +  ELEMENT: bold

    + TEXT: important

  + TEXT: idea.

注意,句元素(sentence element)包含文本,后面跟着子元素,再后面是其他文本。 “混合内容模型”是通过将文本和元素混合起来而定义的。

节点种类

为了提供混合内容的性能,DOM节点生来就非常简单。例如,在前面的例子中,第一个元素的内容 (它的value)简单地标识了节点的类型。

DOM用户第一次通常都会被这个事实迷惑。到访过<sentence> 节点后,他们就想要节点的“内容”,并且想得到其他有用信息。但是,它们得到的是元素的名字“sentence”。

注意:DOM Node API定义了nodeValue()node.nodeType()nodeName() 方法。对于第一个元素节点,nodeName() 返回 "sentence",而nodeValue() 返回空。对于第一个文本节点, nodeName() 返回"#text",并且nodeValue() 返回"This is an "。很重要的一点是元素的value 和它的content不一样。


处理DOM时,获得关心的内容意味着要检查节点包含的子元素列表,忽略那些不感兴趣的,只处理那些感兴趣的。

例如,在上面的例子中,如果要查询句子的“text(文本)”意味着什么?根据你的应用程序,下面的每一条都是合理的:

·   This is an

·   This is an idea.

·   This is an important idea.

·   This is an <bold>important</bold> idea.

简单模型

使用DOM可以方便地创建所需的语义。然而,也需要经过必要的处理,以实现这些语义。而像JDOMdom4j这样的标准,使得事情更加简单,因为层次结构中的每个节点都是一个对象。

虽然JDOM dom4j 允许使用混合内容元素,但是它们主要不是用于这类情况的。相反,它们主要用于XML结构包含数据的应用程序中。

传统数据处理中所介绍的,数据结构中的元素包含文本或其他元素,但是不能两个都包含。例如,下面的XML表示简单的通讯簿:

<addressbook>

  <entry>

    <name>Fred</name>

    <email>fred@home</email>

  </entry>

    ...

</addressbook>


注意: 对于这类非常简单的XML数据结构,也可以使用Java平台1.4版本中的正则表达式包(java.util.regex)


JDOM dom4j中,一旦到达包含文本的元素,就会调用一个方法如text() 来获得它的内容。处理DOM时,必须查看子元素列表,将节点的文本“放在一起”,就如前面所见到的——即便该列表只包含一项(TEXT 节点)

所以,对于简单的数据结构(如前面的通讯簿),使用JDOMdom4j可以节省很多工作。即便是数据在技术上是“混合”的,也可以使用这些模型中的某个模型,除非给定节点有一个(并且仅有一个)文本段。

下面是这类结构的一个例子,它在JDOMdom4j中也很容易处理:

<addressbook>

  <entry>Fred

    <email>fred@home</email>

  </entry>

   ...

</addressbook>

这里,每项都有标识文本,并且后面还有其他元素。使用该结构,程序能够浏览一个项,调用text() 来查看它属于谁,并且如果<email> 子元素在当前节点下,就处理它。

增加复杂度

但是要完全理解查找或操作DOM时需要进行的处理,就必需知道DOM包含的节点。

下面的例子主要就是针对这点的。它是该数据的一个表示法:

<sentence>

  The &projectName; <![CDATA[<i>project</i>]]> is

  <?editor: red><bold>important</bold><?editor: normal>.

</sentence>

该句子包含一个实体引用——一个在其他地方定义的指向“实体”的指针。这里,实体包含项目名。这个例子也包含CDATA(未解释的数据,如HTML中的<pre> 数据),和处理指令 (<?...?>)。在本例中该处理指令告诉编辑器在绘制文本时使用哪种颜色。

下面是该数据的DOM结构。它代表了强壮的应用程序要处理的结构:

+ ELEMENT: sentence

  + TEXT: The

  + ENTITY REF: projectName

    + COMMENT: The latest name we're using

    + TEXT: Eagle

  + CDATA: <i>project</i>

  + TEXT: is

  + PI: editor: red

  + ELEMENT: bold

    + TEXT: important

  + PI: editor: normal

本例描绘了可能在DOM中出现的节点。虽然在绝大多数时候你的应用程序能够忽略它们中的大部分,但是真正强壮的实现需要识别并处理它们中的每一个。

同样,到访节点的处理涉及到子元素的处理,它忽略你不关心的元素仅仅查看关心的元素,直到找到感兴趣的节点。

通常,在这类情况下,仅对找到包含指定文本的节点感兴趣。例如,在DOM API 中,有一个例子,那个例子中希望找到一个<coffee> 节点,该节点的<name> 元素包含文本“Mocha Java”。要执行该查找,程序需要处理<coffee> 元素列表,并且对于每一个列表:a)获取它下面的<name> 元素。b)检查该元素下的TEXT 节点。

然而,该例是建立在一些简单的假设之上的。它假设处理指令、注释、CDATA节点和实体引用不能存在于数据结构中。许多简单的应用程序能够去掉这些假设。另外,真正强壮的应用程序需要处理各类有效的XML数据。

(仅当输入数据包含所需的简化的XML结构时,“简单”的应用程序才能运行。但是没有任何验证机制能够确保不存在更加复杂的结构。毕竟,XML是专门为它们设计的。)

要变得更加强壮,DOM API中的例子代码必须完成以下事情:

1. 搜索<name> 元素时:

a.     忽略注释、属性和处理指令。

b.     允许出现<coffee> 子元素没有按指定的顺序出现的情况。

c.      如果没有验证,跳过包含可忽略空白的TEXT 节点。

2. 提取节点的文本时:

a.     CDATA 节点和文本节点提取文本。

b.     收集文本时忽略注释、属性和处理指令。

c.      如果遇到了实体引用节点或另一个元素节点,递归。(也就是说,将文本提取过程应用于所有的子节点)


注意:JAXP 1.2解析器不将实体引用节点插入DOM。相反,它插入包含引用内容的TEXT 节点。另外,建立在1.4平台中的JAXP 1.1解析器并不插入实体引用。所以,所以独立于解析器的强壮的实现需要能处理实体引用节点。

当然,许多应用程序不用担心这类事情,因为它们看到的数据受到了严格的控制。如果数据能够来自于各类外部源,应用程序就必须考虑这些可能性。

DOM教程搜索节点 获得节点内容的结尾处给出了执行这些函数的代码。现在,目标就是确定DOM是不是适合于你的应用程序。

选择模型

可以看到,使用DOM时,即便是像得到节点中的文本这样简单的操作也要进行大量的编码。所以,如果程序将处理简单数据结构,JDOMdom4j甚至1.4正则表达式包(java.util.regex)将更能满足你的需求。

另外,对于完备的文档和复杂的应用程序,DOM 提供了大量灵活性。并且如果需要使用XML Schema,那么至少DOM是可以使用的方法。

如果你要在开发的应用程序中处理文档和数据,那么DOM可能仍然是最好的选择。毕竟,一旦编写了检查和处理DOM结构的代码,自定义它以实现特定的目的就很容易了。所以,选择在DOM中完成所有的事情,只需要处理一个API集合而不是两个。

还有,DOM标准是标准的。它很强壮且完整,并且有许多实现。这是许多大型安装的决定因素——特别是对产品应用程序,以避免在API发生改变时进行大量的改写。

最后,虽然目前不允许对通讯簿中的文本加粗、倾斜、设置颜色和改变字体大小,某一天可能还是需要处理这些。由于实际上DOM将处理你抛给它的所有内容,选择DOM能够更加容易生成“能适应未来(future-proof)”的应用程序。

XML数据读入到DOM

本节将通过读取现有XML文件来构建一个文档对象模型 (DOM)。在下面几节,你将会学习如何在Swing树组件中显示XML并且练习操作DOM


注意:在教程的下一节转换XML样式表语言中,你将看到如何写出作为XML文件的DOM(你也将看到如何相对简单地将现有的数据文件转换成XML)


创建程序

文档对象模型(DOM)提供了创建节点、修改节点、删除及重新组织它们的API。在本教程的第五节创建和操纵DOM中可以看到,创建DOM相对比较容易。

然而,在创建DOM之前,要先了解DOM的结构。这系列练习通过在Swing Jtree中显示DOM,以便能看到DOM的内部。

创建框架

既然已经对如何创建DOM有了大致了解,现在来建立一个简单程序来将XML文档读入DOM,然后在回写。


注意:本节讨论的代码在DomEcho01.java中。它操作在文件 slideSample01.xml 上。(可浏览的版本是 slideSample01-xml.html)


先来看看应用程序的基本逻辑,确保命令行上带有一个参数:

public class DomEcho {

  public static void main(String argv[])

  {

    if (argv.length != 1) {

      System.err.println(

          "Usage: java DomEcho filename");

      System.exit(1);

    }

  }// main

}// DomEcho

导入所需的类

本节中将看到所有的类都是单独命名的。这样,在引用API文档时就能知道每个类的出处。在你自己的应用程序中,你可能希望使用短格式javax.xml.parsers.*来替换如下所示的导入语句。

添加如下代码以导入要使用的JAXP API

import javax.xml.parsers.DocumentBuilder;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.FactoryConfigurationError;

import javax.xml.parsers.ParserConfigurationException;

想在解析XML文档时抛出异常,添加下面几行:

import org.xml.sax.SAXException;

import org.xml.sax.SAXParseException;

添加下面几行来读取示例XML文件并识别错误:

import java.io.File;

import java.io.IOException;

最后,为DOMDOM异常导入W3C定义:

import org.w3c.dom.Document;

import org.w3c.dom.DOMException;


注意:仅在遍历或操作DOM时才会抛出DOMException 。使用下面介绍的不同机制来报告解析过程中出现的错误。


声明 DOM

org.w3c.dom.Document 类是文档对象模型(DOM)的W3C名。不管解析XML文档还是创建一个XML文档,都会产生一个文档实例。在教程的后面将在另一个方法中引用该对象,所以,在这里将它定义成全局对象:

public class DomEcho

{

  static Document document;

 

  public static void main(String argv[])

  {

它必须是static的,因为你需要在很短时间内从main方法生成它的内容。

处理错误

下一步,插入错误处理逻辑。该逻辑基本上跟SAX教程的使用非验证解析器处理错误中的代码相同,所以在这里就不详细介绍了。在这里要特别提醒的是,当解析XML文档遇到困难时,需要JAXP-conformant 文档构造器来报告SAX异常。实际上DOM解析器不需要在内部使用SAX解析器,但是由于早就有了SAX标准,看来可以用它来报告错误。结果,DOMSAX应用程序的错误处理代码就非常简单:

public static void main(String argv[])

{

  if (argv.length != 1) {

    ...

  }

 

  try {

 

} catch (SAXParseException spe) {

  //

 Error generated by the parser

    System.out.println("\n** Parsing error"

      + ", line " + spe.getLineNumber()

      + ", uri " + spe.getSystemId());

    System.out.println("   " + spe.getMessage() );

  

    // Use the contained exception, if any

    Exception  x = spe;

    if (spe.getException() != null)

      x = spe.getException();