当前位置:首页 > 电子产品 > 正文

基于OEB规范电子书的结构及优化

基于OEB规范电子书的结构及优化  第1张

中美百万册书数字化工程(CADAL)是由中美双方科学家共同发起的旨在建设包含1万册图书的数字图书馆研究与开发项目。该项目基于开放框架结构,并且资源数量将达到50―100TB.目前国内外流行的电子图书制作标准基本上互不兼容,发布的电子书格式有文本格式、HTML格式、特殊开放格式(如PDF,DVu等)、特殊封闭格等等,多样的格式必然导致资源的重复建设以及难以交互。

成立于1998年的开放电子图书论坛(OpeneBookForum)是由IT界、图书馆、出版机构和图书销售公司等共同发起的电子图书的标准制定组织,在1999年发布了电子图书框架结构标准OEBPS1.0(OpeneBookPublicationStructure1.0),其目的是为了更好地表现电子书的内容,即提供给作者及出版商*简单*通用的电子图书出版格式标准,同时,也给电子图书阅读系统开发者提供电子书文档结构的标准,按照该标准制作的电子书,能通过多种阅读系统精确地再现。OEBPS标准建立于XML体系基础上,具有可互操作性、可扩展性、开放性和易用性等优点,作为一种开放框架的规范目前已被业界广泛采用。OEBPS当前*新的版本是2002年8月发布的OEBPS1.2.经过中美专家的共同研讨,CADAL选用了OEBPS作为工程实施标准。

1基于OEBPS的电子书结构在CADAL项目中,一本电子书的制作要经过扫描、图像校正、转换格式、元数据录人、目录录人、封装等过程,*后生成的电子书半成品数据包含若干OEB文件、扩展名为Pf的包文件和反映电子书内容的图像文件。

OEB规范规定符合该规范要求的电子图书文挡必须是有效的XML文档,并建议包文件使用Pf扩展名。该文件描述了一本电子图书的完整框架,包括文档、图像和其它对象以及它们之间的相互关系。

根据规范的要求,该文件由metadata(元数据)、manifest(文件清单)、spine(书脊)、tours(导读)、guide(指南)构成。下面是一个具体的OPF文件示例:封二〃作为一个规范的XML文件,*外层元素是包标DcMetadata元素包含电子图书的DC元数据信息,每一个子元素代表一个DC字段,子元素的内容就是DC字段的值。例如,沈宗敬表示作者是沈宗敬。

Manifest元素包含的是组成电子书的所有文件列表。子元素item用于描述文件类型和地址,每个item都有**的ID号标识。例如

  在OEB规范中,tours(导读)可以根据不同的读者水平或者阅读目的,按一定次序,选择电子书中的部分页面组成导读。但是,tours提供的导读功能与CADAL电子书的树状目录导航要求有所差距。因此,CADAL电子书包文件没有采用该元素,而是把目次数据直接写人catalog,xml文件中。根据书本的目录结构录入目录信息,生成的Catalog,xml文件遵循METS标准。

  2CADAL电子书格式选择CADAL电子书首先选用了HTML作为发布格式,因为HTML是当前互联网上*通用的标记语言,阅读者只需通过浏览器就可以下载阅读,并且无需安装其它插件。使用HTML格式的电子书具有较强的通用性。

  HTML格式的内容是经过扫描、OCR识别并还原而成的文本,因此OCR的识别效果和还原率在很大程度上决定着电子书的质量。在制作过程中,我们发现,OCR技术对于图文混排和中英文相间的版面识别率非常低,同时,由于版面还原技术的不足导致生成的HTML文件和原版面有很大的差异。所以HTML格式的电子书在版式质量上是不能令人满意的。

  鉴于HTML格式电子书的诸多缺点,我们注意到由ATT实验室在1996年提出的DVu电子文档算法可以解决上面提到的问题。DVu是ATT实验室于1996年开始开发的一种新的图像压缩技术。

  它是一个公开的标准,文件格式规范,解码器实现及类型说明HTML目录存放根据tif文件生成的html文件MARC目录存放MARC文件META目录存放dublincore文件OEB目录存放pf已经和pf相关的文件OTIFF目录存放未经处理的扫描tif图像文件PTIFF目录存放经过处理的扫描tif图像文件TOC目录存放目录文件IMAGES目录存放电子书显示所需的图像Oebbrowser.html文件电子书首页浏览文件部分译码器是开放的。有适用于各种操作系统的标准互联网浏览器的免费插件程序。

  典型的DVu文档压缩率比现有的如PEG和GIF格式彩色文档优5到10倍,比TIF格式的黑白文档好3到8倍。以300DH全彩色方式的扫描文档可从25MB大小压缩至30到100KB大小。对300DPI的黑白页经压缩后大小通常变为5到30KB.高解析度的扫描页可被控制在HTML页大小(如50KB)左右。对同时存在图片与文本的彩色文档,在相同质量情况下DVu比PEG格式小5到10倍。

  txt)的文件在被浏览时,浏览器上的文本选择按钮会被激活。这时按下文本选择按钮,用鼠标在图像中相应文本内容上划一个矩形框,被选中的部分即反色。被选中的文字可以被复制到系统的剪贴板中,相应还可实现对图像中文字内容的搜索,查询。

  鉴于上述优点,CADAL的*新电子书选用了DVu作为发布格式,并且采用自动OCR系统生成隐藏文本,既能再现书本版面样式,又能满足检索编辑的需求。而HTML只是作为导航配合DVu以方便读者阅读。

  3CADAL电子书结构对于发布格式的选择,CADAL的电子书结构也经历了两次变化。

  3.1HTML格式下的电子书结构项目开始之初,每一本电子书拥有一个独立的目录,目录的名称是一个8位的流水号,每个目录都包含多个子目录和文件。

  HTML目录存放的是根据PTIFF目录中每一页扫描TIF文件,经过版面分析,OCR识别,然后版面还原成的一个HTML文件,每一页TIF生成相对应的一个HTML文件;OEB目录下主要存放了根据DC和HTML目录下的文件封装的符合oebps标准的pf文件。

  3.2DVu格式下的电子书结构HTML格式的电子书结构的弊端在于只考虑了单本电子书的结构,而没有考虑到电子书库的存储、发布等一系列问题。因此,CADAL在确定选用DVu作为电子书格式的基础上,针对以上问题,对电子书结构作了相应的修改。

  基于DVu电子书结构立足于单本电子书,以一个宏大的电子书库为目标,一本电子书只是这个结构里的一个元素。由于CADAL电子书库的结构比HTML下单本电子书复杂的多,为了便于说明,下面是用XML描述的CADAL电子书库目录结构:注释:这里开始存放单本电子书>制作单位编号">如上XML显示的树状结构,每个XML元素的Name属性为计算机上建的目录名,Description属性为这个目录的简单描述。从上例可知,电子书存放在元素描述的06目录下,06目录下是以电子书的每个proect作为分类,而每f

元素是可以重复的。对于目录存储来说,就是ebook下可以存放多个目录,每个目录就是一个分类。由于CADAL是一个百万级别的电子书库,所以每个项目目录下,又建立了一个编号集目录,每个编号集目录存放200本电子书,编号集的目录名为起始两本编号再加上中间一个“一”做间隔。如上XML元素描述编号集目录为000001000200,表示编号为000001―2之间的电子书存放在此目录下。

以上结构,以电子书库概念替代了单本电子书,更便于电子书的存储、发布和管理。

4展望CADAL项目的实施将推动海量数据存储、管理、检索和多媒体处理等方面的研究工作,促使我国在大规模数字图书馆建设和信息服务领域向世界先进水平迈进。电子书格式及结构的研究,只是其中*基础的一步。CADAL应用的电子书结构既遵从了OEB规范,又吸收了DVu格式的优势,符合建设开放数字图书馆的要求。我们也希望通过这个应用,能提供一种简单、高效、经济、功能强大的电子书结构模型,供大家在数字图书馆建设中。

你可能想看: