内容提要:2013年11月28日至29日,由中国社会科学院文哲学部主办,中国社会科学院民族文学研究所承办的“第五期IEL国际史诗学与口头传统研究讲习班”(The Fifth IEL International Seminar on Epic Studies and Oral Tradition Research)在中国社会科学院学术报告厅举行。中外学者围绕“数字文化遗产和口传史诗数字档案建设”主题进行了发言和讨论。专家们在史诗学、口头传统和民俗学研究方面交流经验并交换意见,探讨了推进民俗学和民族文学的资料学建设和口头传统数字化工作的诸多可能性路径。
关键词:数字文化遗产 口头传统 数字化价值 民族文学
2013年11月28日至29日,“第五期IEL国际史诗学与口头传统研究讲习班”在中国社会科学院学术报告厅举行。来自海峡两岸以及芬兰、美国、日本、韩国、爱沙尼亚和拉脱维亚的十余位学者围绕“数字文化遗产和口传史诗数字档案建设”这一主题,从口头传统数据库建设、专题数据库建设、数字化价值和资料学建设等四个主要方面展开讨论。来自国内外高校与科研院所的研究生与研究人员,总计40余位学员参加了此次讲习班。本期讲习班强调不同文化背景和多学科之间的对话,从民族文学、民俗学、语言学、计算机科学等多个领域,对口头传统进行跨学科研究,其根本目的就是要通过交流与合作来保存我们人类共同的文化遗产。
口头传统数据库建设实践
“芬兰文学学会民俗档案馆”和美国哈佛大学“帕里口头文学特藏”享誉世界,为民俗学研究积累了珍贵而丰富的档案资料。借鉴他们在民俗资料搜集、建档、科研设置以及相关实践等方面的经验,分析口头传统资料数据库建设的相关问题,将有助于推进各国民俗资料的有效存储和再利用。同时关照东亚邻国韩国在大型数据集成建设方面的案例作为对比,我们发现,虽然每个国家在资料搜集、整理、归档上的具体方法不同,但目标和原则是相类似的。也正是在这个基础上,讨论数字遗产的国际平台和共享实践经验的问题,显得意义尤为重大。
芬兰文学学会民俗档案馆馆长、赫尔辛基大学民俗学教授劳里•哈维拉提(Lauri Harvilahti)作了题为《口头传统研究的集成与数据库》的报告。劳里指出,在20世纪初,芬兰文学学会曾是索引和交互引用类型系统发展的中心,并在民俗资料的建档和研究方面应用了这一系统。如今民俗档案建设和研究已经上升到了国际水平,芬兰文学学会将研发能够应用于数字时代的系统。他认为,语料库、语义网技术以及基于网络的类型索引有着巨大发展潜力,或许可以催生出一个充满挑战性的口头诗歌研究模型。2014年芬兰将会开放LDF.fi平台用以出版关联性开放数据,这一平台可适用于各种主要语种,并将会被设计成文化数据库的补充和交互索引。
美国哈佛大学教授戴维·富兰克林·埃尔默(David F. Elmer)《“帕里特藏”数字化工作的成就、挑战和启示》的报告,主要介绍了近十年来哈佛大学“帕里口头文学特藏”的研究进展。他认为,技术手段引导着帕里的研究。帕里每次使用机器前的调试,都会形成一个测试盘。恰恰在这些“测试”的基础上,帕里发现每一种测试都可以与同一歌者在几分钟后完成的另一演述版本相比较。尽管帕里在他搜集的资料上做了标记,但并没有形成便于研究使用的索引。洛德不仅承担了部分搜集工作,还负责制作卡片式目录的综合索引,将资料转化为一种对研究有用的资源。直至20世纪90年代,特藏开始了电子版展示的努力。当前“帕里特藏”数字化工作的学术思考与新方向有四:一、电子化编码改变了资料归纳的描述方法,需要按照每一个条目的“种类”、“主题”或“语言”或制定其他类似元数据标准的规则,创新数据记录方法。二、将地理信息系统GIS运用到“帕里特藏”中,可以增进对音乐形式或歌唱方式的地区分布等问题的探索。三、增强“帕里特藏”与国际上认可的标准化史诗母题表的相互兼容,进而在各种集成之间进行比较研究。四、建立一个全面检索的文本集成,并将文本与相对应的音频文件同步配置。这项工作的推进,对距离口头传统研究较远的其他学科也产生重要影响。
韩国学中央研究院韩国学大学院教务长金炳善(Kim Byongsun)教授《数字编纂韩国民间文学集成》的报告,介绍了韩国学中央研究院关于韩国民间文学的搜集研究情况。在韩国,随着印刷媒体成为主要的信息媒介,口头传统逐渐被书面文字所取代,搜集和保留民间文学的工作也便变得愈发紧迫。韩国学中央研究院《韩国口碑文学大系》数字归档整合的具体工作步骤有六:一、口头传统的分类体系的标准化;二、口头传统数据格式标准化;三、口头传统元数据交流标准化;四、口头传统资料交流协议的标准化;五、口头传统的高级合作研究课题;六、亚洲口头传统咨询组织的建立和运作机制。这部分工作可以由东亚国家的民间文学研究者联合进行研究。总之,口头传统数字化既面临危机,又有机遇。现代传播媒介对口头传统和传统本身造成毁灭性破坏的同时,又为口头传统的采录和存储,提供了前所未有的便利条件和传播渠道。数字时代的版权问题和在数字时代口头传统的传承问题,也成为民间文学研究者面临的新问题。
专题数据库建设实践
在口头传统数字建档的研究体系中,所谓专题数据库,一般是指针对某一具体文类的资料属性与特点,侧重一定专题的数据内容,开发专业元数据标准,确定数据项,进行数据采集、编码与归档而建成的数据库。需要注意的是,在专题数据库建设实践中,往往会遇到科研人员的需求调研与计算机人员的技术实现双方博弈与磨合的问题,这也应该是专题数据库建设成功与否的关键点。
中国社会科学院民族文学研究所(以下简称民文所)巴莫曲布嫫研究员和郭翠潇助理研究员《定制中国活态史诗数字档案元数据标准——基本原则和挑战》,具体介绍了民文所“中国少数民族口头传统音影图文档案库”的建设与元数据标准研制的进展情况。活态史诗在中国有着相当大的规模和多种类型,创世史诗、迁徙史诗和英雄史诗在许多少数民族中仍以口头方式流传。2011年,民文所启动了“中国少数民族口头传统音影图文档案库”项目,通过建设口头传统数据库,实现保存和管理这些资料。巴莫曲布嫫研究员指出,元数据标准的定制有三个原则:一、基于学科,从科研需求出发;二、在实践中定制标准;三、充分借鉴和使用相关国际国内标准,促进信息共享。郭翠潇助理研究员提出,元数据标准定制过程中遇到的挑战有四,即定制元数据标准如何与资料采集同步实施;如何使元数据项既符合学科的知识架构和元数据标准定制的规范,又能与使用者一般概念相衔接;如何平衡元数据项设定的客观性与学术研究的主观性之间的关系,又该如何把握描述深度;以及如何照顾到学科知识的更新。对于这些挑战,民文所提出了一些自己的解决方案。
台湾“中研院”语言学研究所研究员萧素英《“中研院”的阿尔泰语言数位典藏:<格斯尔>语料库和满蒙汉文<老乞大>语料库建设札记》,将数字化作为管理和开发个人学术资料的研究手段。“台湾数位典藏计划”(digital archives in Taiwan)于2002年开始执行,主要开发数字博物馆、数字图书馆等。阿尔泰语言语料库的主要架构是从数字词典链接到田野调查使用到的词条(音频、视频均可)。蒙古文《格斯尔》语料库的制作,先将行、词、句子、翻译、图片分开操作,再使用结构化查询语言(Structured Query Language)链接。在这一过程中,编码是数字化的关键工作。先要校对史诗文本的版本,在原纸介文献的数字扫描文件上添加行号,形成每个词所在文本位置对应的“卷+页+行+句+词”的唯一编码,以利于检索查询。满蒙汉平行语料库——老乞大(http://altaic.sinica.edu.tw),通过逐词语料库建置,一方面在平行文本的基础比较满语与蒙语的动词形态,另一方面形成在线平行语料库成果。
新疆大学人文学院教授热依拉·达吾提(Rahile Dawut)与其数字化团队成员,作了题为《维吾尔族达斯坦数据库建设若干问题》的报告,对当前达斯坦数字化研究现状予以陈述,并对口头传统数字化的相关问题做出回应。达斯坦是维吾尔族民间说唱形式,是融文学、表演、音乐为一体的特殊民间口承文化。从使用语言上看,达斯坦是突厥语演唱的民间说唱艺术。新疆大学自2007年开始着手搜集达斯坦民间作品,目前他们迫在眉睫的工作是,建立网络数据平台,把从民间记录来的作品返还给民间,以更好地保护和传承这项国家级非物质文化遗产代表作。随之而来的问题有,如何重新反思达斯坦数据库的概念,如何寻求从民间来、到民间去的最大可能性,如何解决关于数据库的规范原则、分阶段合作、信息化知识产权、经费支持等问题。此外,关于达斯坦数据库数据准备的标准、达斯坦元数据格式、数据库应用软件的选择等,这些问题引起了与会专家学者的共鸣与热烈讨论。
数字化、价值与标准
“数字化价值”核心概念的提出,将本期讲习班围绕“数字文化遗产和口传史诗数字档案”主题的讨论推向高潮。“数字化价值”的理念和数字化实践,是美国密苏里大学口头传统中心创始人约翰·迈尔斯·弗里(John Miles Foley)教授曾经提出并一直努力追寻的工作。而随着数字化工作的系列化,国内学界对民俗在现代社会的传承问题同样进行了深刻思考和有针对性的实践,这不仅可以将文化返回到民众中去,还可以使民俗文化的当代价值得以不断增值。这一问题的反复强调,提示着我们必须重新审视和反思技术背后的人文资源、民俗环境和文化权力。
美国密苏里大学口头传统研究中心主任约翰·泽穆克(John Zemke)演讲的题目是《数字学术平台翻译研究的若干理论和实践问题》。他从民间文本和数字文本两者的翻译问题切入,引入编码和解码的概念,在民间分类和学者分类对举的视野下,对语料库语言学目前在叙事的计算机分析和建模方面的前景进行探讨,并对语料库语言学作为民间文学研究工具的利弊做了细致分析。他提到,语料库语言学(Corpus Linguistics)是一个独立的学科,它有自己独到的理论体系和操作方法。它又是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题。语料库语言学在其发展之初并没有引起太大的共鸣,但是现代语料库语言学已被广泛认可,并在语言分析、语言教学、词典编撰、人工智能等多个领域被应用。他认为,语料库语言学需要将大量数字化的叙事以及跨文化的分析单元,转换成机器可识别的,以词汇、语义、句法、实用特征和演述特征等要素为依据的不同标签。创立这样一个口头艺术的数字语料库是一项极为庞大的工程,这也同时向民俗学和计算机科学提出了挑战:民俗学者输入的文本与电脑智能识别的文本,二者之间的差异需要进一步解决。多语言的语料库一个公认缺点是,缺失了语境、背景、文化组件等要素。叙事的民间分类和学者分类并不相同,但语料库民俗学家有可能解决这一困境,它可以将享有不同内部逻辑的文化系统进行同步处理,这使得以经验研究为基础的分类成为可能。
北京师范大学民俗学国家重点学科董晓萍教授、赖彦斌工程师及其数字化团队成员集体发表题为《数字化、价值、标准:佛经故事的文学文本与数字文本》的报告。数字化团队成员的集体亮相令人印象深刻,而这一形式也说明,在数字化工作中,团队协作的重要意义。主题报告以数字佛经故事软件为个案,认为民间故事研究是民俗学的学术史传统,传统的故事搜集和研究在均质社会下进行,民俗学者通过长期的研究实践,形成和积累了一套专业化的研究方法,如故事类型分析、流传地和讲述人研究、民俗志调查等。然而,在全球化和网络化的当下,故事讲述和传承的社会环境已经发生了明显的变化,如何在非均质的社会条件下,进行民俗学的民间故事研究,是民俗学者必须面对和思考的问题。而这就产生了一个处理民间故事的文学文本与数字文本的关系问题,需要引入“活动流”和“层级化”的概念,其结果就产生了“数字化价值”。董晓萍指出,“数字化价值”,是针对民间故事的口头叙事和历史文献业已形成并获得社会认同的文学文本,将之转为民俗学者、讲述人、(文化)翻译者、朗读者、大众自媒体可以合作传播和利用的新文本。在新文本中,(文化)翻译者、朗读者和大众自媒体合作传播的价值是新增的,是以往的故事文学文本中所没有的,但又是我们在现代社会中所必须面对的。这是我们利用现代形式保存口头传统,以促进其向未来传承的必经之路。“数字化价值”的实现,需要从民俗学整体研究的视角,探讨民间故事文本的“编码”与“解码”的过程,建立同时符合民俗学研究目标、文化多样性原则和计算机专业操作的技术标准,至少应有三种标准,即音序标准、时长标准和自媒体标准。
从田野采录到数字民俗档案建设
各个国家的不同学术机构乃至民众主体,积极投入到口头传统的采录整理及其数字化、民俗资料学建设、民俗档案馆建设等数字化工作实践中。
拉脱维亚国立大学文学民俗学和艺术研究所的阿尔迪斯·普特利斯(Aldis Pūtelis)作了题为《拉脱维亚文本遗产与数字时代的机遇》的报告。他以拉脱维亚的国别民间文学为研究对象,从民间文艺学史和民族国家的角度,对拉脱维亚民间文学的搜集整理、内容特点等情况,以及民间文学与国家文化遗产的关系进行了介绍,并结合当前数字时代的大背景做了适当阐发。他提到,拉脱维亚历史上没有史诗,民间文学的主要形式是民间歌谣和谜语。拉脱维亚语的复杂性的特点,给民间文学作品的搜集和整理带来了很大的难度。民间文学的数字化分为语音采录、图像采录和文本搜集几个方面,需要将早期采录的模拟信号形式存在的资料转化为数字化数据。其中,因为拉脱维亚语本身的特点,语音的数字化需要工作人员操作设备就可以,而文本材料的搜集和整理,就需要具有拉脱维亚语文字学和语言史等专业知识的人员来完成,从而获得可以使用的现代拉脱维亚语文本资料。目前,《拉脱维亚歌谣集》已经完成数字化,可在互联网上进行检索。
爱沙尼亚民俗档案馆研究员玛丽·萨弗(Mari Sarv)作了题为《爱沙尼亚民间文学搜集的众包经验介绍》的报告。“众包”(Crowdsourcing)一词诞生于2006年,指一群人(往往数量庞大)出于自身的动力,自愿为完成某一项任务而贡献力量。用众包的方式搜集民俗资料,在爱沙尼亚已逾百年。萨弗提到,众包搜集民俗资料的组织形式主要有三种方式。第一,借助在校儿童的力量。第二,借助志愿者贡献的关于民俗的记录,而通过该方式获得的资料已经在许多欧洲其他国家(如拉脱维亚、芬兰)的民俗档案中占有重要位置。第三,在社交媒体Facebook和Twitter上建立通讯员团体。她还提到,由谁来处理搜集到的资料、进行编辑和数据化——这是个十分耗时的工程。为了让这一过程更为便捷,爱沙尼亚档案馆研发了Kratt资料搜集界面,可以实现以下功能。一、创建或修改民俗调查问卷;二、以文本格式或文件格式搜集民俗信息;三、对搜集到的结构化元数据进行注册、制定对搜集到的材料的遴选标准;四、浏览调查问卷获得答案;五、档案员将以获得认可的材料转化为数字格式,通过平台录入输入数据库。但如何辨别通过社交媒体搜集到的民俗的真伪,以及专家参与程度等问题仍值得进一步思考。
日本神奈川大学佐野贤治教授(Sano Kenji)的报告《柳田民俗学与涩泽民具学——从日本民俗资料学的视角出发》,主要介绍了日本福岛县只见町在搜集整理民具过程中遇到的问题,以及相关数据库的建设情况。在民具名称的国际标准与数据库建设方面,契合了本期讲习班的主题。他重点介绍日本民俗学界两位著名的民俗学者——柳田国男(1875-1962)和涩泽敬三(1896-1963),以及他们的基本学术理念,探讨在现代化进程中怎样进行民俗文物的民俗资料学建设的问题,进而对民俗实物的搜集、整理及数字化的研究情况进行了梳理。他以只见町村民保护与整理民俗用具个案“爷奶与孙辈的交流:民具整理与民具学习”为例,将民具资料的对象化、资料化、数据化、体系化和公开化分步骤操作,并展陈基于“本体论”原理的民具数据库。民具研究不仅是学者的任务,还是民众自己的责任。
综上所述,本期讲习班从数字文化遗产的角度出发,在口头传统数据库建设、专题数据库建设、数字化价值和资料学建设等四个主要方面,关注了民俗资料档案库和口头传统研究展示平台的建设,促进了计算机数字技术和口头传统资料库研究的进一步结合。同时,借助讲习班的形式,口头传统研究领域内不同国家的学术机构加强了学术联系与合作,不仅共享在人文资源数字化理念层面的成果,而且还分享在民俗资料数字化具体实践中的经验。可以说,数字文化遗产和口传史诗数字档案建设正在走向深度共享与多方合作的道路。
(毕传龙,中国社会科学院民族文学研究所博士后流动站)
本文原载《民族文学研究》2014年第5期,第171-176页,中国民族文学网经作者授权转载
[1] 本文的写作,参考了中国社会科学院民族文学研究所莎日娜、李斯颖、朱刚、郭翠潇、陈婷婷等研究人员提供的资料,特此说明并致谢。本文的修改,得到尹虎彬研究员的指导,在此一并致谢!
凡因学术公益活动转载本网文章,请自觉注明
“转引自中国民族文学网(http://iel.cass.cn)”。