作者:劳拉·斯蒂尔维格
主题标题对于在线的项目和收藏很重要,因为它们对于组织项目(对于图书管理员)和搜索(对于用户)都是必不可少的。对于第一次创建元数据的人来说,为集合中的一个项查找主题标题可能会令人生畏。而缩小使用标题的范围则更有压力。通常在数字化过程中,效率必须优先考虑,这可能会限制标题的数量和花在研究它们上的时间。不幸的是,不是每个人、地点、事件或概念都有主题标题。这种现象可能适用于小型本地集合,但也会影响大型集合。南卡罗来纳人类关系委员会(SCCHR)就是这些组织之一。包含了数千份由南卡罗来纳人创建的文件,涵盖了从二战开始到70年代末的各种事件、地点和概念,当然有一些地点和昵称不会在国会图书馆的主题标题(LCSH)中找到。值得庆幸的是,有一个解决方案。
光学字符识别,或OCR,是一种软件读取文本图像并以文本文件(.txt)的形式创建副本(维基百科).这项技术有很多用途,其中最常用的用途之一是谷歌翻译.数字收藏使用OCR抄本使集合全文可搜索,如莫杰斯卡·蒙蒂思·西姆金斯论文,1909-1992收藏及WPA关于南卡罗来纳非裔美国人生活的联邦作家项目材料.当一个集合是全文可搜索的时,当用户输入他们的搜索词来寻找一些东西时,每个文档中的所有单词(带有文本)都会与主题标题(也称为受控词汇表)一起搜索。在像SCCHR这样庞大的集合中,某些人的名字肯定会拼写错误,并且将会有一个人和一个地方没有给出一个主题标题。在一些频繁的交流或随意的通信中,人们用名字的首字母或昵称来称呼。此外,在SCCHR成立初期进行了大量的外联工作,与任何组织一样,也有很多人事变动。此外,在SCCHR活跃的时期,已婚妇女的习惯做法是用丈夫的名字称呼,比如约翰·史密斯夫人。将搜索扩展为全文,使研究人员能够识别一个人(或地方)被引用的多种方式,并在集合中的文档中搜索他们名字的更多实例。
缺少主题标题的文档示例:
仅仅在网上提供物品和收藏品是不够的,它们还必须是可访问的。OCR转录的好处比这篇博客中提到的要多得多。虽然SCCHR集合的OCR转录的主要目的之一是扩大搜索参数,但OCR转录还有一个额外的好处,即使打印文档的褪色墨水易于辨认,并且对于那些使用屏幕阅读器的人来说,它是一个必不可少的元素。
参考文献
Cabebe, J.(2012年8月9日)。谷歌翻译Android添加OCR.CNET。检索到2022年1月26日,从https://www.cnet.com/tech/mobile/google-translate-for-android-adds-ocr/
维基媒体基金会。(2022年1月9日)。光学字符识别.维基百科。检索到2022年1月26日,从https://en.wikipedia.org/wiki/Optical_character_recognition