2010年12月19日 星期日

文化經濟學 - 從數字看閱讀

原文: Reading by numbers Science invades the humanities

2004年 Google 開始掃瞄書籍並開放使用者搜尋, 出版商十分擔心他們的文學珍寶將被盜版者摧殘. 然而這項服務讓許多者有機會即時接觸到大量的出版品, 其中很多是讀者原本再多錢都沒有機會取得的. 但除此之外, Google Books 也引發了在人文科學界的一項革命.

長久以來研究人文與語言趨勢的學者只能一本一本書地讀, 程序非常費時費力, 而一個人或是一小群人能讀的書總是非常有限, 幾乎不可能進行大規模的數據收集. 但現在不同了, 哈佛大學的 Jean-Baptiste Michel 博士與他的同事利用 Google Books 的服務作研究, 而他們的第一階段成果本周發表於 Science 雜誌.

自從 Johannes Gutenberg 於十五世紀發明了活字印刷以來估計約有一億三千萬本書被印發, 而至今 Google 已經將一千五百萬本書數位化. Dr. Michel 的團體從中篩選出了五百萬本保有較正確可信的書目資料 (出版日與出版地尤其重要). 他們將研究專注於 1800 到 2000 年間的英文出版品, 但也包括了少數法文, 西班牙文, 德文, 俄文, 中文, 以及希伯來文.

選定樣本之後就可以開始整理數據並分析資料. Dr. Michel 首先用這些資料估計出英文的總共字數. 他們從語言庫中隨機挑出一些樣本, 計算出不是"字"所佔的比例再推算到整體, 大約是一百萬個, 由此推出語言庫中大約有五百億個有效的字 (Dr. Michel 在此將"字"定義為一連串沒有空格的字母). 這些字包括縮寫, 數字, 日期還有筆誤 (像是 becasue 以及 abbreation.) Dr. Michel 也特別注意組合字 (像是 "The Economist" 以及"the United States of America".) 為了盡量避開將隨機組合字以及筆誤, 只有出現超過四十次的字才會被選入字庫.

根據他們研究的結果, 就算是最權威的 “Oxford English Dictionary” 收錄的字數遠不及他們計算出的術字. 另外, 英文字彙在二十世紀前半幾乎沒什麼成長, 然而在五十年間, 每年平均增加八千五百個字, 這是將近百分之七十的成長率.

在研究中 Dr. Michel 發現一個有趣的現象. 有一些在一世紀前就被廣為使用的字彙 (像是“gypseous” 與 “amplidyne”) 終於在 2000 年被加入 American Heritage Dictionary, 但是此時已經鮮少有人使用這些字了.

當然這些研究學者並不只是開字典學家的玩笑, 他們也用那些資料來分析文化趨勢, 例如社會大眾多久才會意識到新的發明 (所需時間越來越短), 名星成名的年紀 (有越來越小的趨勢, 然而他們名氣也更快地燃燒殆盡), 還有許許多多不是很嚴肅正經的趨勢.

當然我們知道書本並不能代表整個人類文化, 尤其近幾十年來書本在文化中佔的重要性越來越低. 另外 Google Books 提供的選書也不盡具有代表性. 在解讀這些研究報告的時候需要將這些要點銘記在心.

Dr. Michel 以及他的團隊希望藉著他們的研究可以激勵更嚴謹的定量研究人文, 他們的研究成果可以算是一個新的學科的開端, 他們將之稱為 Culturomics. 不論這個新字承不承受得起時間的考驗, 相信會有更多人投入這個領域.

沒有留言:

張貼留言