Skip to content
📝 字数:working on

中法发音差异点

Estimated time to read: 5 minutes

法语

j'ai /ʒe/ not /ʒɛ/, 但实际上听到的是/ʒɛ/;

personne /pɛʀsɔn/,后面的发音是/ɔn/,但听起来像是英文的/en/;

marque/maʁk/ r会因为Coarticulation协同发音(在发音过程中,发音器官(如舌、唇、软腭)不会为每个音素独立运动,而是提前或延迟执行部分动作。)被前后更明显的因压缩而弱化。

est-ce celui

est本身/ɛ/,连在一起是/ɛs/,celui/sə.lɥi/,整体在一起是/ɛs.sə.lɥi/,自然状态下,两个s会连在一起长一点。

Text Right What I Heard How to be Right
est-ce celui /ɛs.sə.lɥi/ /ɛsyli/
dans ce rôle /s/ /ʃ/
/r/
l r一样,本身容易有后缀音变
/o/ /a/
/son/ /for/
ni /l/
/vu/ /jou/
/con/ quand

语音流压缩规则

  • 功能词习惯被前面的重音吸附

  • 辅音习惯跟后续的元音结合

语音识别是统计归因

dans ce rôle为例,听到的因素的确就是/ʃ/,属于某种音变,为了解释这种音变,语言学家提出了某种假设(也就是理论),创造了所谓压缩语流等概念进一步细化假设,其中一种主要的假设就是将人类发音基于统计规律聚类划分为IPA中的音,这是一种标准音,实际使用中并不使用这种标准音,而是使用以这种音为锚点的音阈。

换个角度解释,所谓/s/这个音,分类结果并不来自绝对匹配,而是来自统计归因,当一个真人发出某个音,基于场景=>句型=>词汇=>模糊音逐级收敛后形成统计参数上最具说服力的聚类结果,就是/s/这个音,虽然实际发出的就是/ʃ/,但是此处统计归因结果是/s/

因素匹配 => 连续概率空间的最有匹配

分类模型决定感知

对于ai,同一个声音,我如果按/e/去听,就能听成/e/;按/ɛ/去听,也能成立。

这个现象叫categorical warping(类别牵引)或者top-down perceptual bias(自上而下感知偏置)。这说明不是声音决定分类,而是分类模型决定如何感知声音。

因为音素本身的不稳定,声学证据本身通常不足以唯一决定类别。而是用先验、chunk库、统计归因、词库等加权感知,音素不是客观存在,而是解释模型

系统无法“直接认识现实”,只能用已有模型去拟合输入。你只能用自己知道的东西中找一个最接近的去解释接收到的信息。

所以“听到”其实不是接收,constraint-based reconstruction(约束下的重建)。

并不是:接收了/e/ or 接收了/ɛ/。而是:用自己已有的/e/、/ɛ/模型,去解释一个模糊连续信号。

因为大脑无法处理无类别输入,如果完全没有对应模型,系统会强行归类、生成幻觉 或完全无法识别。比如远古智慧。现实不是被直接感知的,而是被模型解释后的结果。

声音信号认知重建纬度:

维度 示例
声学相似度 音像不像
chunk一致性 是否符合固定结构
频率先验 常不常见
语义合理性 是否讲得通
上下文预测 后面是否匹配

技能学习模型

学习语言真正重要的不是: 收集更多音素 而是:建立更多高质量chunk模型 交易作为一项技能同理

训练高效性来源

训练的价值在于构建模型;猜测只是测试当前模型,不会替代模型训练。 如果你能听懂,你是100%确定你对了(模型快速收敛);反过来说,如果你还需要猜,就说明大脑内没有对应的模型或者说模型不清晰,就是还不懂(模型不够准确),就没必要在“猜测”环节(模型验证)花太多精力,因为没有价值(不更新模型参数),猜测只是一个验证(验证集),不是训练(更新模型)。投喂准确数据训练是有价值的,验证是一次性的、简短的、快速的。

中文

Right Wrong How to be Right
(zhu) (chu)
(shang)店 (shan)电
(zhou)末 (chu)没 Pull the corners of your mouth back as far as possible
(qu)
我喜欢用 (qian)
我喜欢吃 (tian)
(xian)菜
(tian)空
(ban) (ben)
舌头不要碰上颚
舌头不要碰下颚

评论