有的痛苦只有同社群的人能明白,有的压抑则只有在同一种文化里浸淫过来的人才懂。2019年在伦敦的口吃互助会上,龚嵘认识了同为中国人的乔治(化名)。两人一拍即合,两个话筒,两个耳机,列好问题,互相采访,播客“口吃说”的第一期节目诞生了。龚嵘到现在还记得当时问的最后一个问题:“如果从明天起你不再口吃了,你会做什么?”
除了被当成笑料“包袱”,中文媒体上鲜有对口吃的讨论。龚嵘坚定选择了依靠声音而非文字的传播形式,渴望让更多人听到口吃者真实的声音。之后,乔治拉来了已经身在美国的宾佳。除了人物访谈,“口吃说”开始做“口吃三人行”系列,三个人分享讲述口吃者点单、约会、面试等的经验。
宾佳有时会想,从小到大,如果有一个人和她说过“口吃不是你的错”,她的人生会不会不一样。可就是没有这么一个人,同样,大多数“吃友”的人生里也没有这么一个人。于是,当美国口吃互助会的成员介绍她和一位来自中国的口吃女性认识时,她欣然接受。
Tracy Wang当时正面临毕业,虽然论文出色,却仍因口吃而一再错失工作机会。她和宾佳打了一个小时的电话,打完电话躲进被窝里哭了一个小时。宾佳是她在美国遇到的第一个有口吃的华人。在人生的低谷期,一个从未谋面的陌生人耐心地听她结结巴巴讲话,真切地给她带来了希望。后来,Tracy成了播客的嘉宾;再后来,她加入“口吃说”,成为核心成员。
宾佳(右上)和Tracy(下)在播客中采访吴少玫(左上)。| 口吃说 Talk
就这样,“口吃说”的社群慢慢壮大,不单是海外的华人,国内的言语治疗师、口吃研究者以及许许多多口吃者加入到社群中来。当社群足够庞大,“口吃说”开始举办线上互助会,每两周一次,身处世界各地的华人都可以用母语来讲述自己的经历,宣泄日常无法同他人分享的情绪。发展到现在,“口吃说”已经成为国内最具影响力的口吃社群之一,两个微信群里有接近七百名成员。龚嵘说:“我们自己是口吃者,我们就是在为自己发声。只不过有了社群,大家联合起来的话,声音会更大一些,会让更多人听到。”
的确有人听到了他们的声音,意料之外的机会即将降临。
2022年,清华大学科学博物馆和麻省理工学院策划一个关于残障与科技的线上展览时,邀请“口吃说”帮忙,希望了解口吃者在使用AI产品时可能遇到的困难。
龚嵘知道智能语音助手听不懂口吃者的话,同时,作为在奥地利一家语音识别公司工作的研发人员,他也知道症结所在:市面上的语音识别系统使用的都是讲话流利者的数据,没有考虑到口吃者语音的独特性。口吃者可能将“帮我看一下时间”说成“帮我看一下时时时间”/“帮我看一下sh——sh——时间”/“帮我看一下(长时间卡壳)时间”,这些语音重复、语音延迟或拖音、卡壳,都会成为系统里一个异常输入。
我们想不到明确的形象代表口吃者,找不到合适的符号在文字里标记一次口吃,在0与1的世界里,同样没有符号来代表口吃事件。为展览收集素材,再一次提醒了龚嵘这个现实。
2022年底,在微信群里又聊到这个话题,龚嵘和数据科学家Tracy一拍即合,决定利用现有的口吃社群收集口吃者的语音数据,制作口吃语音数据库。
吴少玫曾是“口吃说”人物访谈系列的受访嘉宾,也曾在脸书和参与推动过包含无障碍产品、人工智能促进包容和种族公平性在内的多个“技术向善”项目。听到龚嵘的计划,她认为逻辑上跑得通,但担心项目的门槛太高。根据她在脸书的工作经验,收集语音数据每小时的预算要2000美元(其中大部分是运营成本,支付给参与者的报酬在每小时几十美金左右),收集特殊群体的语音数据预算还要更高。按照最初的计划收集100位口吃者的数据,项目至少花费20万美元。不确信项目会成功,她依然愿意提供咨询帮助,尝试总归是好的。
在社群里发布两次招募帖,总共募集到70位参与者。没有达到预期目标,但这并没有阻止龚嵘和Tracy前进的脚步。语音数据收集环节由两部分组成,半小时由龚嵘或Tracy对参与者进行围绕个人口吃经历的采访,半小时请参与者读语音指令。两人平日工作繁忙,对话只能在周末等业余时间进行。70次对话,10个月完成录制。
70名参与者中46名男性、24名女性,包括学生、老师、公务员、律师、销售、外卖骑手、修车技工、网红经纪人等。参与数据收集时,口吃者一开始也会习惯性地隐藏口吃。读语音指令时刻意用尽可能流畅的方式读出来,访谈时通过换词、换句子或者用最简单的一两句话来回答问题,避免口吃的出现。这会导致语音数据库的意义大打折扣。创建口吃语音数据库是为了让更多人注意到口吃者独特的说话方式,而贡献数据的许多口吃者在做的是竭尽全力抹掉自己的独特。
每当此时,龚嵘和Tracy会主动口吃,以此来鼓励对方用最真实的说话方式,展现口吃。有的参与者会不习惯。从小到大接触到的所有环境对他们的期待、他们对自己的期待都是“你应该流畅地说话”,第一次听到对口吃的鼓励,不习惯是自然的。而当社群的核心成员主动展露自己的口吃,听到他们磕磕巴巴地说话,受到鼓舞也是自然的。一次次采访做下来,Tracy觉得“虽然不少口吃者给别人的感觉是性格内向或不善言辞,但给他们相应的鼓励和空间,每个人都有很多话想要分享,每个人都渴望有一个平台能够诉说自己的故事”。
说出一个句子要花更多的时间,单看逐字稿信息含量不如隐藏口吃时来得多,但是当口吃者用自己最自然的方式讲话,表达的是最真实的自己。表达,不单能通过语言,还可以依靠身体。每一个气息憋在喉咙里的时刻,每一次用力到让音节支离破碎的时刻,都在传递信息。
吴少玫估计,如果项目放在大公司里操作,采访者只会按模版问诸如“你喜欢什么音乐”等无关痛痒的问题。说话流畅的采访者不会意识到参与者在刻意隐藏口吃,参与者也只是“拿钱办事”,让说什么就说什么,数据收集过程机械而疏离。龚嵘和Tracy的语音数据是“真心换真心”收集来的,聊的都是同为口吃者的挣扎,是伙伴间的抱团取暖。
2024年在希腊科斯岛参加语音技术会议,左一吴少玫,右二龚嵘。丨受访者供图
说话流畅的数据采集者同样不了解的是,一个人的口吃程度不是恒定的。
吴少玫一对一讲话或者在家里和孩子说话,十句里顶多口吃一两次,可在公开场合讲话,她讲一句话可能会口吃七八次。这是口吃不同于其他残障的地方。视障、听障、肢体残障等虽然会给当事人的生活造成诸多不便,但在一段时间内,障碍的状态大多起伏不大。而口吃在某些场景下不会对吴少玫的生活造成不便,在另一些场景下会让她处于几乎失语的状态,极大限制了她的社会交往能力,在这些场景下,口吃是一种典型的残障。龚嵘上过的口吃矫正班都是他自己要求去的,因为他在家人面前说话不口吃,父母不了解公共场合下讲话给他带来的苦恼。一般来说,人在紧张的状态下容易口吃,反之亦然。当发现参与者过于放松或者过于紧张时,龚嵘和Tracy会有意识地帮助参与者调节状态,尽量让他们呈现出日常的说话状态。
半小时的采访结束后,请参与者录制语音指令时,文本同样针对口吃群体进行了调整。为数据做免费标注的北京希尔贝壳()先给出了一版成熟的语音模版,包括指令词、和语音助手简单的交互沟通(比如“你好,米雅,这首歌循环六遍”)以及稍长一些25个字以上的文本等。然而,越长的句子,口吃者表达的难度越高,停顿和重复会比短句子多得多。因此,在龚嵘的建议下,语音指令文本里删掉了25个字以上的长文本。
“没有我们的参与,不要替我们做决定( about us, us)”这句国际障碍者权益运动的重要口号同样适用于此。每一种障碍都代表一种独特的存在方式,其独特性非当事人无法彻底参透。
口吃者创创创创创创创创创创创创造时间
吴少玫曾认为科技是中性的,即便科技导致善果或恶果都是因为其使用者,而非科技本身。在工作中接触到残障群体,她发现自己错了。每一种科技都镶嵌了某种价值观,压抑排挤了某些族群。看得见是“正常的”,说话流畅是“正常的”。吴少玫曾在某一档播客节目里提到自己不点“”的故事,节目把她前面的“”都剪掉了。
近几年人工智能被塑造得无所不能,特别是在沟通领域。即时翻译让沟通不受语种的限制;为听障人士研发的智能眼镜能实时将语音转化成字幕,让沟通不受声音的限制。然而,在吴少玫看来,科技产品让沟通的阈值变窄了。日常生活里,我们每个人说话都会犯错,会发错音、夹杂语气词或者语序混乱。无论对方犯错程度深浅,多数人会耐心等对方说完,努力去理解、通过上下文语境去猜测对方的意思,人和人之间对话有犯错的空间。然而,直到近几年,市面上AI学习的素材一般都是发音标准、语序正确的新闻播放、广播节目,这令沟通中犯错的空间变小了。拨打人工智能客服对每个人来说可能都是糟心的体验,对口吃者更是如此。口吃者还没说出话来,人工智能客服会直接将他的停顿识别成句号,结束对话。这时,人工智能没有让生活变得轻松,反而增添了障碍。
有的公司会研发针对方言的语言模型,但在时间上都有滞后,都是先满足大多数人的需求,再去考虑少数群体。“这不是一个值得吹嘘的事情,或者是在做行善积德的大好事。他们在一开始设计产品的时候忽略了部分人,可以说他们的产品一开始是有bug的,”吴少玫认为,“研发针对方言或者其他少数群体的模型,不是在锦上添花,只是在修bug。”
即便是针对残障群体设计的无障碍科技产品,其目标大多是为了“修复”——眼睛看不见,让科技产品充当你的眼睛;耳朵听不到,让科技产品帮你听;哪种能力达不到平均水平,科技产品帮你达到。有的语音模型会自动将不流畅的语音转化成流畅的语音,以便让机器听懂。吴少玫说:“这等于把作为一个人类语音的资格都给抹掉了,就像在说你的语音不达标,你没有在我们考虑的范围内,你说的话必须要修复一下才能听懂。”
而“口吃说”的语音数据库展现了28,310起口吃事件,在逐字稿里保留了口吃的痕迹,没有将语句变得平滑。其创建目的不是为了“修复”口吃者的声音,而是为了彰显口吃者的独特。
在为收集来的语音数据做标注时,数据标注员需要能区分出五种口吃事件( event),包括字的重复(word-level ,[ ])、音节的重复(sound ,/r)、卡壳(,/b)、拖音(,/p)和插入语(,/i)。重复和拖音相对容易判断,可谁都有一下子想不到某个词卡壳的时候,要区分这种卡壳和因口吃而发生的卡壳,其中的微妙差别只有口吃者才知晓。龚嵘解释说,口吃者在努力发一个音时,肌肉的紧张、痉挛会造成一些细微的声音。这些声音未经训练的说话流畅者容易忽略,但口吃者一听就懂。
的语音模型对口吃语音的转录结果,左边是口吃者的语音文本,右边是转录结果。不但创建了开源口吃语音数据库,龚嵘、吴少玫等人还积极撰写论文,在学术领域内发声。| Fair and for : -led and
Meta的语音模型对口吃语音的转录结果,左边是口吃者的语音文本,右边是转录结果| Fair and for : -led and
历时一年多的公益项目AS-70数据库是第一个开源中文口吃语音数据库,也是目前唯一一个非欧美语系的口吃语音数据库。在大公司需要20万美元预算的项目,“口吃说”社群做下来项目花费为8400元。(“口吃说”付给每位参与者120元的报酬,希尔贝壳公司送给每位参与者一个背包。另外,希尔贝壳为“口吃说”免费提供数据标注等服务,总共为项目花费十余万元。)那些卡壳的时刻,那些时间仿佛无限延荡下去的时刻,终于有了代表符号,有了意义,哪怕只是在这有效时长48.8小时的开源数据库里。
让残障群体向主流人群靠拢还是尊重每个群体的独特性,是残障领域常谈常新的话题。普通孩子能自然而然学会的生活技能,自闭症谱系障碍的孩子做不到,该一遍一遍重复强化让谱系障碍的孩子记住,还是尊重孩子独特的成长节律?只有8%的聋人能看懂新闻里的手语,手语翻译打的是听人制定的手语,不符合聋人的思维方式和表达习惯,该让聋人学习听人制定的手语,向听人靠拢,还是尊重聋人群体的独特性?
五年前我曾就此采访过北京师范大学教育学部刘艳虹副教授。她说的话我至今难忘,请允许我再引用一遍:“一个多元的世界不可能有统一的思维方式。一个群体有一个群体的特征,医生有医生的特征,老师有老师的特征,聋人也有聋人的特征。只不过有的群体特征与该群体成员的受教育经历有关,有的群体特征与成员的个人成长经历有关,有的群体——聋人群体、盲人群体等——的特征与他们的身体状况有关。这是自然而然的,也是人类多样性的一种表现形式。我们没有必要去打破它,也没有必要去改变它。我们需要做的是尊重。”
尊重一个群体的独特性,其受益者绝不仅限于人群中1%的口吃群体。宾佳目前是密歇根州州立大学跨学科项目的成员,师从享誉国际的口吃专家J·斯科特·亚洛斯(J. Scott )博士。该项目旨在让语音AI对口吃群体更友好,2024年初拿到了美国国家科学基金会500万美元的资助。据宾佳介绍,项目之所以能拿到这么大笔的资金资助,一个重要原因是利用口吃数据训练模型,模型不但有能力识别口吃者的语音,还能识别落在典型区间之外的其他说话者的语音。
小组成员背景多元,照片中左二为宾佳。| 受访者供图
受自闭症谱系障碍者发起的神经多样性运动启发,口吃者将口吃当成语言多样性的一种表现,口吃者是非典型说话者,说话流畅者是典型说话者。非典型说话者还包括有构音障碍的人、有发音障碍的人、听力损伤但有说话能力的听障者、说话不流畅的谱系障碍者等,以及没有严重到障碍的程度,但语音仍难以被识别的人群,比如中风后康复的人、口音较重的人等。
无障碍坡道的存在不仅帮助了肢体残障者,还帮助了因年老而腿脚不灵活的老人、因伤病行动受限的病人、推婴儿车的家长等等。人无完人。“残障是最反社会达尔文主义的,”吴少玫说,“我们每个人都有属于每个人的状态。最重要的不是把我们每个人修复到一种所谓的理想状态,而是可以创造一个环境,让每种状态下的人都可以实现他的人生目标和追求。”
又借鉴性少数群体的经验,口吃群体在各地展开“口吃骄傲( pride)”活动,力争改变对口吃的传统叙述,将话语权握在社群自己手中。宾佳组织参与的一项活动是在美国纽约惠特尼博物馆的展板上展示口吃,用诗一般的语言赋予口吃事件意义——“口吃者创创创创创创创创创创创创造时间”。
宾佳(左一)与组织活动的口吃朋友们在惠特尼博物馆展板前合影。| 受访者供图
为什么选择继续隐藏?
细心的读者或许已经发现了,上面提及的所有口吃者都在海外,都接受过高等教育。他们能面对并接受自己的口吃,部分原因是“生活所迫”。通常说外语时口吃会发生得更频繁,口吃者无法做到像使用母语般自由更换表达方式,口吃者的生活会面临更多障碍,逼着他们不得不改变。用龚嵘的话说,他刚出国时“几乎没办法生活”。
另一部分原因是他们所在区域的环境对口吃者更友好,支持系统更完善。相较于北美和西欧等地,目前国内的言语治疗实践仍处于起步阶段,没有汉语儿童语言障碍评价指标体系,没有单独的言语治疗师认证体系。国际通行的需求标准是每10万人中配备20名言语治疗师,按此标准,国内至少需要有26万名言语治疗师,而目前还不足1万人。
宾佳会定期在线上和国内的“吃友”见面,帮助“吃友”学习更好地与口吃共处。大部分参与者都接受过良好教育,通过经年的自我训练能熟练地避免或隐藏口吃。“真正严重的口吃者,真正需要帮助的群体,其实还是很难走出来的。”参与互助会的“吃友”羡慕宾佳能找到允许口吃的环境,羡慕她能将口吃写到简历上,将口吃变成自己的优势。宾佳认为,对大多数口吃者而言,隐藏口吃是衡量利弊之后做出的妥协。“如果能站到阳光下,谁不想站到阳光下呢?”
我在工作中接触过听障、视障、肢体残障、谱系障碍等残障群体,每个群体都有其独特之处,但他们有一个相同的诉求,都希望社群中能出现更多接受过高等教育的意见领袖,能代表社群发声。我还记得一位老教授说“你看看有几个聋人家庭有书架的?”时痛心疾首的模样。肢体残障群体的活动时不时会出现穿拖鞋的人,因为他们平时从不出门,没有鞋子。
基于我和残障群体接触的有限经验,口吃群体是受教育水平最高的群体,可在国内,他们的声音也是最微弱的。社会上对口吃存在诸多误解,和看到的报道少、接触到的口吃者少不无关系。改变社会对口吃者的认知,需要口吃者自己发出声音。可也正是因为对口吃的误解太深、对口吃者的歧视根深蒂固,口吃者日复一日背负巨大的压力,他们不得不隐藏自己的声音,不得不隐藏在说话流畅的人群之中。这是一个闭环。
视障群体站出来为自己争取到参加普通高考的机会,自闭症谱系障碍孩子的家长联合起来为孩子赢得在普通学校就读接受融合教育的机会,而口吃的孩子会接受矫正治疗,学习隐藏自己的方法。
谁都想以本来的样子站在阳光下,可谁又不想当个“正常人”呢?尤其在明知会为自己的“不正常”付出昂贵代价的情况下。在许多人眼中,口吃者手舞足蹈、满脸通红说不出一个字的画面,仍是怪异的、让人不适的,应该被隐藏,应该被纠正成一个完美的句号。“口吃说”作为国内最具影响力的口吃社群之一,其主要组织者全部是身处海外的华人,可能并非偶然。
谈到如何面对人生困境,一句名言常常出现——“那些杀不死你的,终将使你更强大。”当你克服了困境,回头再看,只会感谢它的馈赠。可现实是,有的东西没有杀死你,但你也没有克服它。试图克服它给你带来了力量,可它也切实在心灵上留下了永恒的裂痕。或许,这才是接纳自我的真正含义。
尽管宾佳已经走了这么远的路,放弃稳定的教师职位、出国、换专业、疗愈自己、组织口吃社群、为口吃者权益走遍全世界,可她仍无法同父母分享自己的脆弱。
最近一次回国,宾佳在家庭聚会上当众口吃。亲戚们议论纷纷,小孩子直接笑出了声。妈妈反复说:“你出国之前说话不是这样子的。”宾佳反复跟她讲,之前她一直在隐藏自己的口吃。妈妈问她:“如果你之前能隐藏三十年,为什么不继续隐藏三十年?”并坚定地说:“如果我是你,我就会继续隐藏下去。”
参考文献
[1]口吃说.
[2]刘巧云, 陈思齐, & 李岩. (2019). 基于icf的儿童语言康复体系构建. 中国听力语言康复科学杂志(6).
[3]石定栩, & 杨洋. (2020). 中国语言障碍与言语治疗的现状分析和发展思路. 中国社会科学文摘.
[4][加] 乔丹·斯科特, [加] 西德尼·史密斯. (2021).《我说话像河流》. 启发童书馆 | 北京联合出版公司.
[5]《多元宇宙: 残障、科技与共建未来》线上展览,网址:
[6], J. (2024). Life on delay: peace with a . .
[7], K. (2014). Out with it: How me find my voice. Simon and .
[8] JS, RW. and the of , , and : an . J . 2004 Jan-Feb;37(1):35-52. doi: 10.1016/S0021-9924(03)00052-2. PMID: .
[9] , Stems From In Brain Not , 见网址: