ASJP5:ASJP码转写与距离、相似度计算等R代码包
语言相似性自动判断程序数据库(Automated Similarity Judgment Program,简称ASJP,网址https://asjp.clld.org/)是马普研究院建立的大型优秀数据库之一,它通过计算语言中核心词汇语音形式的编辑距离获得语言之间的距离及相似度等数据。
ASJP对词汇语音形式的编辑距离计算是在将词汇国际音标转换为ASJP码的基础上进行的,因此将国际音标转换为ASJP码是进行语言距离计算的前期前提工作。ASJP数据库现在的实际联系人S?ren Wichmann编写了R代码来完成这一工作,并通过R代码进行数据信息的呈现、检查,简明地图的绘制、不同距离计算方法(LDN,LDND)的距离矩阵形成、MEGA文件生成、语言年代学计算、发源地推断等。可以说,该R工具包整合汇集了ASJP相关研究的基本功能。
ASJP数据库及其工具广泛运用于语言学的各个领域,包括世界语言分类树图、语音对应关系(sound correspondence)、音义关联(sound-meaning association)、语言年代学(chronology)、语言的迁移速率(~1/3 km/year during 6000-2000 BP)、寻找语言分化的发源地点(homeland)、史前语言研究(linguistic prehistory)、第二语言习得研究等。我们(本公众号的研究团队)将其运用于语言/方言及其层级区分、对一种语言/方言受到的多种影响因素进行分离和量化、汉藏语系语言的语言距离与地理距离的关系、语系/语族语言/语档偏离程度的计算与意义、语言词长的计算及在汉藏语研究中的意义、依据偏误条目进行转写的中介语语音计算分类、汉语方言语档偏离程度与电视收视率的关系等。此外ASJP还应用于语言学之外的其他研究领域,例如双边贸易、劳工输出、语言教育、体育赛事等。
在征得S?ren Wichmann的同意后,我们在公众号和网站提供该ASJP计算R代码包的下载。
附件下载:
代码包下载请解压,然后运行R,更改路径到解压文件,使用下面操作命令,然后根据提示选择操作即可:
source(“ASJP.R”)
ASJP()