@ 2019.09.11 , 12:00
31

不同语种具有相同的信息转化率:每秒39比特

整体而言,意大利人拥有世界上最快的语速,每秒最多能蹦出9个音节。另一方面,许多德国人说起话来慢慢悠悠,1秒钟里5、6个音节。然而,根据最新研究,意大利人和德国人平均每分钟输出的语言信息量大致相同。实际上,无论不同语种的音节特性或人种的语速差异有多大,全部语种倾向于以大致相同的速率传输信息:每秒39比特,大约2倍于摩尔斯码的效率。

“这一发现具有可靠性,”在布鲁塞尔自由大学研究语音信息的进化语言学家Bart de Boer解释说,他本人没有参与这项工作,所以属于第三方评价。语言学家长期以来一直怀疑信息量较大的语言——如将关于时态、性别和说话者信息蕴含于较小的语言单位中的语种——其使用人群往往语速较慢,以降低信息密度。但一直以来,没有人能够用数据证明这一假说。

科学家们分析了由17种语言撰写的书面文本,其中包括英语、意大利语、日语和越南语。他们用信息学中的单位——比特,计算出每种语言的信息密度。他们发现日语有643个音节,平均每个音节的信息密度约为5比特;而英语,有6949个音节,单音节的密度为7比特。越南语是包含6个音调的复杂系统(同一音节在不同音调上具有不同含义),所以每个音节的信息密度为8比特,排在榜首。

接下来,研究人员花了3年的时间从17种语言中14种的使用群体中招募参与者,每种有5名男性和5名女性。(其他3种语言的情况在更早实验中留有录音。)每位参与者大声朗读15个相同的段落。研究人员计算出每种语言的平均语速,以音节/秒为单位。

毫不奇怪,有些语言显然比其他语言说起来更快。但是,当研究人员最后将语速乘以音节信息密度时,他们对结果的一致性感到震惊。他们在Science Advances上报告说,无论快或慢、简单或复杂,每种语言都倾向于平均每秒39.15比特的速度传递信息。相比之下,世界上第一台计算机的调制解调器(1959年)的传输速率为每秒110比特,而今天家庭互联网的平均传输速率为每秒100兆比特(或1亿比特)。

报告的共同作者、法国里昂大学法国国家科学研究中心赞助的Dynamique Du Langage实验室的演化语言学家François Pellegrino说:“有时候,有趣的事实或规则就隐藏在眼皮底下。”他说,由于语言科学长期关注语法复杂性等问题,因此信息传递率被忽略了。他补充说,“明确的”是,尽管语言的编码策略差异很大,但在输出信息时,没有哪种语言比另一种语言更有效。

但“为什么”完全是另外的问题。Pellegrino和同事们怀疑答案与我们脆弱身体的生物学限制有关——我们大脑在产生和接收信息时,受到的生理制约。神经科学的研究支持上述观点,最近一篇论文提出,美式英语中每秒9个音节已经达到了听觉处理系统的能力上限。

Boer同意瓶颈来自我们的大脑。但是他说,似乎制约不是来自听觉系统的处理速度,而是大脑分析信息内容的速度。这是因为,当把录音1.2倍速播放时,听者完全能够理解。“看起来最终瓶颈出现在语音-意义的合并-转化环节。”

本文译自 sciencemag,由译者 majer 基于创作共用协议(BY-NC)发布。


支付宝打赏 [x]
您的大名: 打赏金额:
已打赏蛋友(1): Guuuululu
赞一个 (4)

+1

  1. 喵了个咪啪
    @5 days ago
    4345455

    汉语四字词语表示不服

  2. 4345474

    屁股决定脑袋的研究

  3. yager刘
    @5 days ago
    4345479

    用中文和法文背个九九乘法表对比一下?

  4. ◆夏日嘉年华◆
    @5 days ago
    4345480

    《超级小黑咪》日语主题曲不服

  5. oooxxx
    @5 days ago
    4345482

    文言文表示绝对不服

  6. siliencetom
    @5 days ago
    4345495

    两倍速看视频勉勉强强能跟上

  7. IIIIIIIII
    @5 days ago
    4345500

    “分析了17中语言撰写的书面文本”… 这个数量也太少了吧… 这种结论没啥大意义

  8. 哲学大叔
    @5 days ago
    4345507

    这研究跟 隔着7个人 就互相认识的 那个研究的区别是。

  9. 不看不看
    @5 days ago
    4345513

    编码效率高,解码效率就低,解码器大家都一样的,差距能多大

  10. 4345523

    @oooxxx: 虽然不相信原文结论,但文言文这例子不好。。。古汉语书写和口语脱离的,并且,诞生文言文的时候,汉语还有复辅音和完整韵尾啥的,语速肯定比现在各方言都慢。。。so,文言文信息密度高并不能代表有一个高信息密度的“语言”

  11. 4345542

    玛雅文:?

  12. 爱尔兰
    @5 days ago
    4345546

    楼上一些人真的想轻轻松松地只用几个键盘打的字推翻人家至少有严谨性和科学性可寻的研究?
    首先说不服的那些朋友,是不是搞错了本文的重点?本文观点:有些语言语速快,有些语言语速慢。但无论语速快慢,它们传递信息的速度是相同的。这样研究的预设情景肯定不是你一个人用中文古文在那里飚rap啊?

    看了下原网址里的网址提到的更详细的信息:
    我们收集了170名母语为上述17种语言的成年人的录音,他们以正常的速度阅读15种语言中语义相似的标准化文本(共约24万个音节)。说话者通过在录音前反复阅读课文来熟悉课文,这样他们就能理解所描述的情况,并尽量减少阅读错误。

  13. 如火如荼
    @5 days ago
    4345550

    比较读音似乎没什么意义,人类大部分信息都是靠眼睛获取的,要不然为什么有书籍呢,现代社会拥有互联网后更甚,可以一整天不说话

    所以我觉得应该比较文字信息密度和传递效率,比如文字表达同一个意思,谁最短

    不过这个好像已经有定论了,汉字的平均信息密度最大,信息熵最高

  14. 爱尔兰
    @5 days ago
    4345551

    第二个,为什么只有17种语言?挑选17种语言是因为要选取在语音学上有大差别的语言作为研究实验的对象。

    Focusing on their phonetics and phonology, these languages vary in their number of phonemes (from 25 in Japanese and Spanish to more than 40 in English and Thai), the number of distinct syllables (from a few hundred in Japanese to almost 7000 in English), tonal complexity (from none to six contrastive tones), and various other phonological phenomena (e.g., vowel harmony is present in Finnish, Hungarian, Korean, and Turkish).

    这些语言不同音素的数量(从25的日本和西班牙,到超过40的英语和泰国),不同的音节的数量(从几百个的日本到几乎7000个的英语),声调复杂性(从没有到6声调),和其他各种语音现象(如存在元音和谐现象的在芬兰、匈牙利语、韩语、和土耳其)。

  15. 无浪漫主义者
    @5 days ago
    4345557

    前次类似的研究不是说日语最快么
    刚刚又搜到一个日语音节最快的研究,不过附带还有,日语表达意义的速度反而最慢

  16. 爱尔兰
    @5 days ago
    4345559

    本文推想,那些信息量更大的语言的使用者会把这门语言的速度降低,主要原因是生理机制无法处理更高密度的信息了。全文充斥大量专业词汇,我更多的也看不懂了,有兴趣的自己去看,地址:https://advances.sciencemag.org/content/5/9/eaaw2594

    但是拜托各位,不要用你们自以为是的“经验”去简简单单地否定科学研究好吗。

  17. 咔咔咔
    @5 days ago
    4345626

    不知道是不是因为怕被牵扯“辱华”,所以研究范围不愿意纳入汉语。

  18. 司马又丕
    @5 days ago
    4345686

    @爱尔兰: page not found, pong友

  19. 4345715

    所有语言都有自己简化信息后的成语,各个语言都有废弃古文改革语法的现象,古文之所以成为了古文是因为它无法处理社会发展造成的越来越多的信息量,100年前的一份报纸里的信息量比400年前古代人类一年所接受的信息都多。

  20. 景烽
    @5 days ago
    4345747

    汉字编码率应该是最高之一,但是相声语速听的人也听不过来。

  21. 調色盤
    @5 days ago
    4345761

    這個基本就是把每音節信息密度和每秒音節算出來,比較在意的是這個信息密度是怎麼定義的,目前應該沒有一個編碼方式可以公平處理不同的信息密度吧…

  22. 4345783

    但是看原文的Fig 1. (https://advances.sciencemag.org/content/5/9/eaaw2594)

    IR那栏, 泰语明显最低, 英语法语最高.

  23. 4345794

    人类有史以来最低效率的串行信息传输方式,用了几万年还没升级过

  24. 假装路过
    @5 days ago
    4345795

    成语不算
    预先录制的宏都不能算
    两个看过同一本书的说个书名就明白了,岂不是更快?
    学成语挺费劲的,而且经常有人没学好有二义性,还有好多没学过。
    就算说书名我能反应出整本书的文字来,我也不知道你想表达什么意思。

  25. 4345879

    女友:我没有不高兴
    我:(*内存溢出)

  26. 繁灯虚华
    @5 days ago
    4345984

    建议看看信息论很再表达自己

  27. 4346018

    我不信,重庆人每秒能说好几句话

  28. 4346163

    看《亮剑》的印象,日语好多音节说好久,中文翻译短短一句话。

  29. zzZ好好睡觉Zzz
    @4 days ago
    4346307

    汉语成语=压缩包 自古以来=压缩格式统一 通用性高
    拉丁语言压缩率也非常高,比如ABC 但是压缩格式众多,面对的用户很少,通用性不足

  30. 景烽
    @4 days ago
    4346624

    中文音节编码率是很明显的事情。除开成语,常用省略,随便翻一句话,对比发音次数就看得出来。
    英文省略用得很频繁,因为语法较中文灵活一截,但是总体编码率还是差很多。

  31. 驴子
    @4 days ago
    4346653

    我觉得吧,只要AI比较发达,只要把常用的语句,编成几篇文章,让机器人相互翻译成不同需要。然后让机器人用正常语速播放,到时候看用什么语言讲完的时间长~

发表评论