📝 字数：working on

中法发音差异点

Estimated time to read: 5 minutes

法语

j'ai /ʒe/ not /ʒɛ/, 但实际上听到的是/ʒɛ/;

personne /pɛʀsɔn/,后面的发音是/ɔn/,但听起来像是英文的/en/;

marque/maʁk/ r会因为Coarticulation协同发音（在发音过程中，发音器官（如舌、唇、软腭）不会为每个音素独立运动，而是提前或延迟执行部分动作。）被前后更明显的因压缩而弱化。

`est-ce celui`

est本身/ɛ/,连在一起是/ɛs/,celui是/sə.lɥi/，整体在一起是/ɛs.sə.lɥi/,自然状态下，两个s会连在一起长一点。

Text	Right	What I Heard	How to be Right
est-ce celui	`/ɛs.sə.lɥi/`	`/ɛsyli/`
`dans ce rôle`	`/s/`	`/ʃ/`
	`/r/`
	`l`		与`r`一样，本身容易有后缀音变
	`/o/`	`/a/`
	`/son/`	`/for/`
	`ni`	`/l/`
	`/vu/`	`/jou/`
	`/con/`	`quand`

语音流压缩规则

功能词习惯被前面的重音吸附
辅音习惯跟后续的元音结合

语音识别是统计归因

以dans ce rôle为例，听到的因素的确就是/ʃ/,属于某种音变，为了解释这种音变，语言学家提出了某种假设（也就是理论），创造了所谓压缩、语流等概念进一步细化假设，其中一种主要的假设就是将人类发音基于统计规律聚类划分为IPA中的音，这是一种标准音，实际使用中并不使用这种标准音，而是使用以这种音为锚点的音阈。

换个角度解释，所谓/s/这个音，分类结果并不来自绝对匹配，而是来自统计归因，当一个真人发出某个音，基于场景=>句型=>词汇=>模糊音逐级收敛后形成统计参数上最具说服力的聚类结果，就是/s/这个音，虽然实际发出的就是/ʃ/,但是此处统计归因结果是/s/。

因素匹配 => 连续概率空间的最有匹配

分类模型决定感知

对于ai,同一个声音，我如果按/e/去听，就能听成/e/；按/ɛ/去听，也能成立。

这个现象叫categorical warping（类别牵引）或者top-down perceptual bias（自上而下感知偏置）。这说明不是声音决定分类，而是分类模型决定如何感知声音。

因为音素本身的不稳定，声学证据本身通常不足以唯一决定类别。而是用先验、chunk库、统计归因、词库等加权感知，音素不是客观存在，而是解释模型。

系统无法“直接认识现实”，只能用已有模型去拟合输入。你只能用自己知道的东西中找一个最接近的去解释接收到的信息。

所以“听到”其实不是接收，constraint-based reconstruction（约束下的重建）。

并不是：接收了/e/ or 接收了/ɛ/。而是：用自己已有的/e/、/ɛ/模型，去解释一个模糊连续信号。

因为大脑无法处理无类别输入，如果完全没有对应模型，系统会强行归类、生成幻觉或完全无法识别。比如远古智慧。现实不是被直接感知的，而是被模型解释后的结果。

声音信号认知重建纬度：

维度	示例
声学相似度	音像不像
chunk一致性	是否符合固定结构
频率先验	常不常见
语义合理性	是否讲得通
上下文预测	后面是否匹配

技能学习模型

学习语言真正重要的不是：收集更多音素而是：建立更多高质量chunk模型交易作为一项技能同理

训练高效性来源

训练的价值在于构建模型；猜测只是测试当前模型，不会替代模型训练。如果你能听懂，你是100%确定你对了（模型快速收敛）；反过来说，如果你还需要猜，就说明大脑内没有对应的模型或者说模型不清晰，就是还不懂（模型不够准确），就没必要在“猜测”环节（模型验证）花太多精力，因为没有价值（不更新模型参数），猜测只是一个验证（验证集），不是训练（更新模型）。投喂准确数据训练是有价值的，验证是一次性的、简短的、快速的。

中文

Right	Wrong	How to be Right
住(zhu)	处(chu)
商(shang)店	闪(shan)电
周(zhou)末	出(chu)没	Pull the corners of your mouth back as far as possible
去(qu)
我喜欢用钱 (qian)
我喜欢吃甜 (tian)
咸 (xian)菜
天 (tian)空
老板(ban)	老本(ben)
昨天是星期三
今天是星期四
明天是星期五
后天是星期六
大后天是星期天
白天
杯子
书	区
肉	柔
吃	气	舌头不要碰上颚
菜	在	舌头不要碰下颚
吃	是
出租	车