《迷失在边境

| 2022年8月24日

南加州大学计算机科学专业的一名学生正在开发自然语言处理工具,以解决土著寻求庇护者的翻译短缺问题。

由于缺乏为说土著语言的人翻译,许多寻求庇护者在墨西哥面临漫长的等待。照片/ iStock。

由于缺乏为说土著语言的人翻译,许多寻求庇护者在墨西哥面临漫长的等待。照片/ iStock。

想象一下,为了逃离国内的迫害,在艰难的旅途中幸存下来,到达一个新的国家寻求庇护,却在边境被拒之门外,因为没有人会说你的语言。这就是数百名从中美洲偏远地区进入美国的移民的现实,他们不会说西班牙语或葡萄牙语等共同语言。

说传统语言的土著寻求庇护者缺乏翻译,这意味着许多人必须在墨西哥等待几个月甚至几年才能申请庇护,这使本已不堪重负的移民系统积压了很长时间。

Katy Felkner正在开发一种墨西哥和中美洲土著语言的机器翻译系统,以帮助边境的庇护寻求者。图片/凯蒂Felkner。

Katy Felkner正在开发一种墨西哥和中美洲土著语言的机器翻译系统,以帮助边境的庇护寻求者。图片/凯蒂Felkner。

“美国的移民系统是为处理英语和西班牙语而设立的,”该学院计算机科学博士生凯蒂·费尔克纳(Katy Felkner)说bob国际首页登录南加州大学维特比工程学院“但每年有数百人是少数民族语言的使用者,特别是来自墨西哥和中美洲的土著语言使用者,他们无法获得西班牙语移民所能获得的任何资源和法律援助。”

在其他情况下,人们无法解释他们在家乡受到的生命威胁,这可能是寻求庇护的依据。当移民无法理解或被理解时,美国国土安全部进行的“可信恐惧访谈”无法确定他们的安全受到威胁。

根据《福德汉姆法律评论》(Fordham Law Review)的一项研究,统计数据令人震惊:没有律师的寻求庇护移民的胜诉率仅为13%,而有律师的案件的胜诉率为74%。

Felkner说,她在南加州大学信息科学研究所乔纳森可能他正在研究一种解决方案:一种墨西哥和中美洲土著语言的机器翻译系统,可供向难民和寻求庇护者提供法律援助的组织使用。

费尔克纳说:“人们正受到直接的不利影响,因为法律援助组织没有为他们的语言提供翻译。”“这是一种具体而直接的方式,我们可以将自然语言处理用于社会公益。”

“人们正受到直接的不利影响,因为法律援助组织没有为他们的语言提供翻译。”凯蒂Felkner。

给予寻求庇护者公平的机会

Felkner目前正在研究一个系统Kʼ伊切ʼ危地马拉语是近年来移民法庭上使用最普遍的25种语言之一《纽约时报》

费尔克纳说:“我们试图提供一个粗略的翻译系统,让那些没有资源聘请翻译的非营利组织和非政府组织提供某种程度的法律援助,给寻求庇护者一个公平的机会,让他们通过可信的恐惧面试。”

费尔克纳对语言的兴趣始于她在俄克拉荷马大学(University of Oklahoma)读本科期间,她获得了计算机科学和文学双学位,重点是拉丁语。在大学的第一年,她参与了一个名为“数字拉丁图书馆”的项目,编写Python代码来创建古代文本的数字版本。

“这让我开始思考语言技术,”Felkner说。“我自学了一些自然语言处理的基础知识,最后专注于机器翻译,因为我认为这是对人类影响最直接的领域之一,也是该领域最困难的问题之一。”

虽然Felkner和May目前专注于开发一个文本到文本的翻译器,但多年后的最终目标是一个多语言语音到语音的翻译系统:律师说英语或西班牙语,系统将自动翻译成寻求庇护者的土著语言,反之亦然。

推动下界

翻译系统使用并行数据进行训练:换句话说,它们在句子层面上通过看到翻译对或两种语言的同一文本来学习。但在包括K ' iche '在内的土著语言中,几乎没有类似的数据,尽管有大约100万人说这种语言。

这是因为只有当有令人信服的理由将并行数据转换成或转换出该语言时,并行数据才会存在。费尔克纳说,从本质上讲,如果它在商业上可行——例如,迪士尼将电影从英语配音到西班牙语——或者源于宗教动机。

在许多情况下,由于整个拉丁美洲传教士的影响,唯一的并行数据源——两种语言的同一文本——是《圣经》,这并没有给研究人员太多的工作机会。

我们真的在努力突破成功训练机器翻译系统所需数据的下限。”凯蒂Felkner。

“想象一下,你是一个说英语的人,试图学习西班牙语,但你唯一能看到的西班牙语是《新约》,”Felkner说。“这将相当困难。”

对于语言翻译系统所使用的数据饥渴型深度学习模型来说,这是个坏消息,因为它们看重的是数量而不是质量。

费尔克纳说:“这些模型必须多次查看一个单词、短语、语法结构,以确定它可能出现在哪里,以及它在另一种语言中对应的内容。”“但我们没有为K ' iche '和其他资源极低的土著语言提供这种服务。”

数字说明了一切。从英语到K ' iche, Felkner有大约15000句并行数据,从西班牙语到K ' iche有8000句并行数据。相比之下,她为一些基础工作训练的西班牙语-英语模特只有13个几百万训练数据的句子。

我们试图在基本没有数据的情况下工作。”“几乎所有低资源语言都是如此,在美洲更是如此。”

现有低资源工作中的一种策略是使用密切相关的、资源更高的语言作为起点:例如,要将英语翻译成罗马尼亚语,您将开始用西班牙语训练模型。

但由于美洲的土著语言与欧洲和亚洲是分开发展的,所以大多数是低资源的,而且大多数是极低资源的,这是Felkner创造的一个术语,用来描述一种并行数据不足3万句左右的语言。

Felkner说:“我们真的在努力提高成功训练机器翻译系统所需数据的下限。”

从无到有

但拥有语言学背景的费尔克纳并没有被吓倒。在过去的两年里,她一直致力于使用自然语言处理中的一些技巧为模型创建语言数据。

一种策略是教模型完成抽象的翻译任务,然后让它在特定的语言上工作。费尔克纳说:“这就像先学开车再学开公共汽车一样。”

为了做到这一点,Felkner采用了一个英语到西班牙语的模型,然后将其微调为K ' iche ' To Spanish。事实证明,这种被称为迁移学习的方法,即使在资源极低的情况下也表现出了希望。“这非常令人兴奋,”Felkner说。“迁移学习方法和从一种不密切相关的语言进行预训练,从未在这种资源极其匮乏的环境中进行过真正的测试,我发现它是有效的。”

她还利用了另一种资源:使用由现场语言学家在70年代中后期出版的语法书籍,生成可用于帮助模型学习的合理合成数据。Felkner正在使用语法书来编写规则,这将帮助她从字典中构建语法正确的句子。这方面的专业术语是自举或数据增强——或者通俗地说,“假装它,直到你成功。”

Felkner说:“我们用这些数据作为预训练数据,基本上是教模型语法的基础知识。”“然后,我们可以保存我们的真实数据,比如圣经并行数据,以用于微调时期,那时它将了解什么是语义上有意义的,或者什么是真正有意义的。”

最后,她正在测试一种技术,包括分析圣经中英语和K ' iche '面中的名词,用其他名词替换它们,然后使用一套规则来正确地屈折变化句子的语法。

例如,如果训练数据中有这样一句话:“男孩踢了球”,研究人员可以使用这种方法生成“女孩踢了球”、“医生踢了球”、“老师踢了球”等句子,这些都可以成为训练数据。

Felkner说:“我们的想法是使用这些合成生成的例子来构建一个系统的粗略版本,这样我们就可以从我们拥有的少量真实数据中得到很多用途,并将其调整到我们想要的位置。”

即时人道主义影响

费尔克纳承认,使用极低资源的语言进行翻译并不容易,有时会令人沮丧。但挑战和改变生活的潜力驱使她成功。她的工作也引起了人们的注意:她最近获得了一项国家科学基金会研究生研究奖学金继续开展边境翻译项目。

明年,她计划进行一次实地考察,观察法律援助组织是如何在边境工作的,以及她的系统在哪些方面适合他们的工作流程。她还在为该系统开发一个演示网站,她希望在2023年推出,一旦开发完成,她希望该系统有朝一日可以应用于其他土著语言。

费尔克纳说:“在高资源语言上爬坡可以让你的Alexa、谷歌Home或Siri更好地理解你,但它不是以同样的方式进行变革。”“我做这项工作是因为它有直接的人道主义影响。正如肯尼迪曾经说过的,我们选择登月不是因为它容易,而是因为它很难。我常常认为值得做的事情是困难的。”

出版于2022年8月24日

最后更新于2022年8月24日

分享这个故事