§2-1 定量分析中的误差
定量分析的任务是准确测定组分在试样中的含量。在测定过程中,即使采用最可靠的分析方法,使用最精密的仪器,由技术很熟练的人员进行操作,也不可能得到绝对准确的结果。因为在任何测量过程中,误差是客观存在的。
我们应该了解分析过程中误差产生的原因及其出现的规律,以便采取相应措施,尽可能使误差减小。另一方面需要对测试数据进行正确的统计处理,以获得最可靠的数据信息。
误差与准确度
误差是指测定值 xi 与真值 μ 之间的差值。误差的大小可用绝对误差 E (absolute error) 和相对误差 Er (relative error) 表示。
分析天平称量两物体的质量各为 1.6380 g 和 0.1637 g,假定两者的真实质量分别为 1.6381 g 和 0.1638 g,则两者称量的绝对误差分别为:
E = 1.6380 g − 1.6381 g = −0.0001 g
E = 0.1637 g − 0.1638 g = −0.0001 g
两者称量的相对误差分别为:
Er = −0.0001 / 1.6381 × 100% = −0.006%
Er = −0.0001 / 0.1638 × 100% = −0.06%
由此可知,绝对误差相同,相对误差并不一定相同。当被测定的量较大时,相对误差就比较小,测定的准确度也就比较高。
准确度是指测定平均值与真值接近的程度,常用误差大小表示。误差小,准确度高。
偏差与精密度
偏差是指个别测定结果 xi 与几次测定结果的平均值 x̄ 之间的差值。与误差相似,偏差也有绝对偏差 di 和相对偏差 dr 之分。
平均偏差
各单次测定偏差绝对值的平均值,称为单次测定的平均偏差 d̄ (average deviation),又称算术平均偏差。
标准偏差
标准偏差 (standard deviation) 又称均方根偏差,当测定次数 n 趋于无限多时,称为总体标准偏差,用 σ 表示:
在一般的分析工作中,测定次数是有限的,这时的标准偏差称为样本标准偏差,以 s 表示:
相对标准偏差
s 与平均值之比称为相对标准偏差 (relative standard deviation, RSD),以 sr 表示:
精密度是指在确定条件下,将测试方法实施多次,求出所得结果之间的一致程度。精密度的大小常用偏差表示。
重复性与再现性
精密度的高低还常用重复性 (repeatability) 和再现性 (reproducibility) 表示。
重复性 (r)
同一操作者,在相同条件下,获得一系列结果之间的一致程度。
r 又称为室内精密度。sr 计算公式与式(2-8)相同。
再现性 (R)
不同的操作者,在不同条件下,用相同方法获得的单个结果之间的一致程度。
R 又称为室间精密度。
有两组测定值:
甲组:2.9, 2.9, 3.0, 3.1, 3.1
乙组:2.8, 3.0, 3.0, 3.0, 3.2
判断精密度的差异。
平均值 x̄甲 = 3.0,平均偏差 d̄甲 = 0.08,标准偏差 s甲 = 0.10
x̄乙 = 3.0,d̄乙 = 0.08,s乙 = 0.14
本例中,两组数据的平均偏差是一样的,但数据的离散程度不一致,乙组数据更分散,说明用平均偏差有时不能反映出客观情况,而用标准偏差来判断更合理。本例中 s乙 大一些,即精密度差一些,反映了真实情况。
准确度与精密度的关系
🎯 靶心图示意
由图可见:甲所得结果的准确度和精密度均好;乙的结果精密度虽然好,但准确度稍差;丙的精密度和准确度都很差;丁的精密度很差,虽然平均值接近真值,但带有偶然性,其结果也是不可靠的。
实验结果首先要求精密度高,才能保证有准确的结果,但高的精密度也不一定能保证有高的准确度(如无系统误差存在,则精密度高,准确度也高)。
分析铁矿中铁含量,测定结果为 37.45%, 37.20%, 37.50%, 37.30%, 37.25%。计算此结果的平均值、平均偏差、标准偏差、变异系数。
x̄ = (37.45% + 37.20% + 37.50% + 37.30% + 37.25%) / 5 = 37.34%
各次测定偏差分别为:d₁ = +0.11%, d₂ = −0.14%, d₃ = +0.16%, d₄ = −0.04%, d₅ = −0.09%
d̄ = (0.11% + 0.14% + 0.16% + 0.04% + 0.09%) / 5 = 0.11%
s = √[(0.11)² + (0.14)² + (0.16)² + (0.04)² + (0.09)²] / (5−1) % = 0.13%
sr = 0.13% / 37.34% × 100% = 0.35%
误差的分类及减免误差的方法
根据误差产生的原因及其性质的不同,可以把误差分为两类:系统误差或称可测误差 (determinate error),随机误差 (random error) 或称偶然误差。
1. 系统误差
系统误差的产生有如下原因:
- 方法误差 (method error):方法不完善造成,如反应不完全,干扰组分的影响,滴定分析中指示剂选择不当等
- 试剂误差:试剂或蒸馏水纯度不够,带入微量的待测组分,干扰测定等
- 仪器误差 (instrumental error):测量仪器本身缺陷造成,如容量器皿刻度不准又未经校正,电子仪器"噪声"过大等
- 人员误差 (personal error):操作人员操作不当或不正确的操作习惯造成,如观察颜色偏深或偏浅,第二次读数总是想与第一次重复等
系统误差的性质
- 重复性:同一条件下,重复测定中,重复地出现
- 单向性:测定结果系统偏高或偏低
- 恒定性:误差大小基本不变,对测定结果的影响比较恒定
2. 随机误差
随机误差是由一些无法控制的不确定因素所引起的:
- 环境温度、湿度、电压的变化
- 污染情况等的变化引起试样质量、组成、仪器性能等的微小变化
- 操作人员实验过程中操作上的微小差别
- 以及其它不确定因素等所造成的误差
随机误差的特点
- 值时大时小,时正时负,难以找到具体的原因
- 更无法测量它的值
- 但从多次测量结果的误差来看,仍然符合一定的规律
- 实际工作中,随机误差与系统误差并无明显的界限
校正系统误差的方法
- 对照试验:选择一种标准方法与所采用的方法作对照试验,或选择与试样组成接近的标准试样作对照试验,找出校正值加以校正
- 空白试验:对试剂或实验用水是否带入被测成分,或所含杂质是否有干扰,可通过空白试验扣除空白值加以校正
- 回收试验:在测定试样某组分含量(x₁)的基础上,加入已知量的该组分(x₂),再次测定其组分含量(x₃)。由回收试验所得数据可以计算出回收率:
随机误差的正态分布
如测定次数较多,在系统误差已经排除的情况下,随机误差的分布也有一定的规律,如以横坐标表示随机误差的值,纵坐标表示误差出现的概率大小,当测定次数无限多时,则得随机误差正态分布曲线。
📊 正态分布曲线
随机误差分布的性质
对称性
大小相近的正误差和负误差出现的概率相等,随机误差分布曲线是对称的。
单峰性
小误差出现的概率大,大误差出现的概率小,很大误差出现的概率非常小。误差分布曲线只有一个峰值。
有界性
仅仅由于随机误差造成的误差值不可能很大,即大误差出现的概率很小。如果发现误差很大的测定值出现,往往是由于其它过失误差造成的。
抵偿性
误差的算术平均值的极限为零:lim(Σdi/n) = 0
置信度与置信区间
测定值或误差出现的概率称为置信度或置信水平 (confidence level)。μ±σ、μ±2σ、μ±3σ 等称为置信区间 (confidence interval),其意义为真实值在指定概率下,分布在某一个区间。
| x − μ | u | 概率 |
|---|---|---|
| [−σ, +σ] | [−1, 1] | 68.3% |
| [−1.64σ, +1.64σ] | [−1.64, +1.64] | 90.0% |
| [−1.96σ, +1.96σ] | [−1.96, +1.96] | 95.0% |
| [−2σ, +2σ] | [−2, +2] | 95.5% |
| [−2.58σ, +2.58σ] | [−2.58, +2.58] | 99.0% |
| [−3σ, +3σ] | [−3, +3] | 99.7% |
t 分布曲线
在分析测试中,测定次数是有限的,一般平行测定 3~5 次,无法计算总体标准偏差 σ 和总体平均值 μ,而有限次测的随机误差并不完全服从正态分布,而是服从类似于正态分布的 t 分布。
t 分布是由英国统计学家兼化学家 W.S.Gosset 提出,以 Student 的笔名发表的,称为置信因子 t,定义为:
📊 t 分布曲线与正态分布曲线的比较
t 分布曲线随自由度 f (f = n−1) 而变,当 f > 20 时,二者很近似,当 f → ∞ 时,二者一致
由式(2-15)可得:
t 值表
| 测定次数 n | 90% | 95% | 99% |
|---|---|---|---|
| 2 | 6.314 | 12.706 | 63.657 |
| 3 | 2.920 | 4.303 | 9.925 |
| 4 | 2.353 | 3.182 | 5.841 |
| 5 | 2.132 | 2.776 | 4.604 |
| 6 | 2.015 | 2.571 | 4.032 |
| 7 | 1.943 | 2.447 | 3.707 |
| 8 | 1.895 | 2.365 | 3.500 |
| 9 | 1.860 | 2.306 | 3.355 |
| 10 | 1.833 | 2.262 | 3.250 |
| ∞ | 1.645 | 1.960 | 2.576 |
测定 SiO₂ 的质量分数,得如下数据:28.62%, 28.59%, 28.51%, 28.48%, 28.52%, 28.63%。求平均值、标准偏差及置信度分别为 90% 和 95% 时平均值的置信区间。
x̄ = (28.62 + 28.59 + 28.51 + 28.48 + 28.52 + 28.63) / 6 % = 28.56%
s = √[(0.06)² + (0.03)² + (0.05)² + (0.08)² + (0.04)² + (0.07)²] / (6−1) % = 0.06%
查表 2-2,置信度为 90%,n = 6 时,t = 2.015,因此:
μ = (28.56 ± 2.015×0.06/√6) % = (28.56 ± 0.05) %
同理,对于置信度为 95%,可得:
μ = (28.56 ± 2.571×0.06/√6) % = (28.56 ± 0.06) %
公差
"公差"是生产部门对于分析结果允许误差的一种表示方法。如果分析结果超出允许的公差范围,称为"超差",该项分析工作应该重做。
公差的确定与很多因素有关,一般是根据试样的组成和分析方法的准确度来确定。对组成较复杂物质(如天然矿石)的分析,允许公差范围宽一些,一般工业分析,允许相对误差在百分之几到千分之几。
§2-2 分析结果的数据处理
分析工作者获得了一系列数据后,需对这些数据进行处理,譬如有个别偏离较大的数据(称为离群值或极值)是保留还是弃去,测得的平均值与真值或标准值的差异是否合理,相同方法测得的两组数据或用两种不同方法对同一试样测得的两组数据间的差异是否在允许的范围内,都应作出判断,不能随意处理。
可疑数据的取舍
数据中出现个别值离群太远时,首先要仔细检查测定过程中,是否有操作错误,是否有过失误差存在,不能随意地舍弃离群值以提高精密度,而是需进行统计处理,即判断离群值是否仍在随机误差范围内。常用的统计检验方法有 Grubbs 检验法和 Q 值检验法。
1. Grubbs 检验法
步骤是:将测定值由小到大排列,x₁ < x₂ < ⋯ < xn,其中 x₁ 或 xn 可疑,需要进行判断。首先算出 n 个测定值的平均值 x̄ 及标准偏差 s。
得出的 G计算 值若大于表中临界值,即 G计算 > G表(置信度选 95%),则 x₁ 或 xn 应弃去,反之则保留。
2. Q 值检验法
如果测定次数在 10 次以内,使用 Q 值检验法比较简便。步骤是将测定值由小到大排列,x₁ < x₂ < ⋯ < xn,其中 x₁ 或 xn 可疑。
式中 xn − x₁ 称为极差,即最大值和最小值之差。若 Q计算 > Q0.90表,则弃去可疑值,反之则保留。
测定某药物中 Co 的质量分数得到结果如下:1.25×10⁻⁶, 1.27×10⁻⁶, 1.31×10⁻⁶, 1.40×10⁻⁶。用 Grubbs 检验法和 Q 值检验法判断 1.40×10⁻⁶ 这个数据是否保留。
x̄ = 1.31×10⁻⁶,s = 0.067×10⁻⁶,则
G计算 = (1.40×10⁻⁶ − 1.31×10⁻⁶) / (0.067×10⁻⁶) = 1.34
查表 2-3,置信度选 95%,n = 4,G表 = 1.46,G计算 < G表,故 1.40×10⁻⁶ 应保留。
Q计算 = (1.40×10⁻⁶ − 1.31×10⁻⁶) / (1.40×10⁻⁶ − 1.25×10⁻⁶) = 0.60
查表 2-4,n = 4,Q0.90 = 0.76,Q计算 < Q表,故 1.40×10⁻⁶ 应保留,两种方法判断一致。
平均值与标准值的比较
为了检验一个分析方法是否可靠,是否有足够的准确度,常用已知含量的标准试样进行试验,用 t 检验法将测定的平均值与已知值(标样值)比较,按下式计算 t 值:
若 t计算 > t表,则 x̄ 与已知值有显著差别,表明被检验的方法存在系统误差;若 t计算 ≤ t表,则 x̄ 与已知值之间的差异可认为是随机误差引起的正常差异。
两个平均值的比较
当需要对两个分析人员测定相同试样所得结果进行评价,或需对两种方法进行比较,检查两种方法是否存在显著性差异,即是否有系统误差存在,以便于选择更快、更准确、成本更低的一种方法时,可选用 t 检验法进行判断。
判断两个平均值是否有显著性差异时,首先要求这两个平均值的精密度没有大的差别,为此可采用 F 检验法进行判断。
若 F计算 < F表,再继续用 t 检验法判断 x̄₁ 与 x̄₂ 是否有显著性差异;若 F计算 > F表,不能用此法进行判断。
§2-3 误差的传递
分析结果是将各步骤测量值按一定公式计算出来的,而每个测量值的误差将传递到最后的结果中去,传递方式随系统误差和随机误差而不同。
系统误差的传递公式
对于加减法运算,如以测定值 A、B、C 为基础,得出分析结果 R:
则根据数学推导可知,分析结果最大可能的绝对误差 (ΔR)max 为各测定值绝对误差之和,即
对于乘除法运算,如由测定值 A、B、C 相乘除,得出分析结果 R:
则分析结果最大可能的相对误差 (ΔR/R)max 为各测定值相对误差之和,即
随机误差的传递公式
对于加减法运算,分析结果的方差为各测定值的方差之和。如 R = A + B − C,则
对于乘除法运算,分析结果的相对偏差的平方等于各测定值的相对标准偏差平方之和。如 R = AB/C,则
需要指出,以上讨论的是最大可能误差,即各测定值的误差相互累加。但在实际工作中,各测定值的误差可能相互部分抵消,使得分析结果的误差比按上式计算的要小些。
§2-4 有效数字及其运算规则
有效数字
在测量科学中,所用数字分为两类:一类是一些常数(如 π 等)及倍数(如 2,1/2 等),系非测定值,它们的有效数字位数可看作无限多位,按计算式中需要而定。另一类是测量值或与测量值有关的计算值,它的位数多少,反映测量的精确程度,这类数字称为有效数字。
- 有效数字通常保留的最后一位数字是不确定的,称为可疑数字
- 一般有效数字的最后一位数字有 ±1 个单位的误差
- 数字"0"有两种意义:若只是定位作用,它就不是有效数字;若作为普通数字就是有效数字
- 改换单位不能改变有效数字位数
- pH、pM、lgK 等有效数字位数,按照对数的位数与真数的有效数字位数相等,对数的首数相当于真数的指数的原则来定
• 称量某物质为 0.0875 g,8 前面的两个 0 只起定位作用,故 0.0875 为三位有效数字。
• HCl 溶液浓度为 0.2100 mol·L⁻¹,为四位有效数字。
• 滴定管读数 30.20 mL,两个 0 都是测量数据,该数据有四位有效数字。
• 如 1.0 L 是两位有效数字,不能写成 1000 mL,应写成 1.0×10³ mL,仍然是两位有效数字。
• 例如,[H⁺] = 6.3×10⁻¹² mol·L⁻¹,是两位有效数字,所以 pH = 11.20,而不能写成 pH = 11.2。
修约规则
分析测试结果一般由测得的某些物理量进行计算,结果的有效数字位数必须能正确表达实验的准确度。运算过程及最终结果,都需要对数据进行修约,即舍去多余的数字,以避免不必要的烦琐计算。
即当多余尾数小于或等于 4 时舍去尾数,大于或等于 6 时进位。尾数正好是 5 时分两种情况,若 5 后数字不为 0,一律进位,5 后无数或为 0,采用 5 前是奇数则将 5 进位,5 前是偶数则把 5 舍弃,简称"奇进偶舍"。
14.2442 → 14.24 (舍 4)
26.4863 → 26.49 (进 6)
15.0250 → 15.02 (5 前为偶数 2,舍 5)
15.0150 → 15.02 (5 前为奇数 1,进 5)
15.0251 → 15.03 (5 后有非零数字,进位)
运算规则
1. 加减法
运算结果的有效数字位数决定于这些数据中绝对误差最大者。如 0.0121,25.64,1.05782 三数相加,其中 25.64 的绝对误差为 ±0.01,是最大者(按最后一位数字为可疑数字),故按小数点后保留两位报结果为
2. 乘除法
运算结果的有效数字位数决定于这些数据中相对误差最大者。如
式中 0.0325 的相对误差最大,其值为 ±0.0001/0.0325 ≈ ±0.3%,故结果只能保留三位有效数字。
§2-5 标准曲线的回归分析
在分析化学中,经常使用标准曲线来获得试样某组分的浓度。如光度分析中的浓度-吸光度曲线,电位法中的浓度-电位值曲线,色谱法中的浓度-峰面积(或峰高)曲线等。
怎样才能使这些标准曲线描绘得最准确、误差最小呢?这就需要找出浓度与某特性值两个变量之间的回归直线及代表此直线的回归方程。
设浓度 x 为自变量,某性能参数 y 为因变量,在 x 与 y 之间存在一定的相关关系。当用实验数据 xi 与 yi 绘图时,由于实验误差存在,绘出的点不可能全在一条直线上,而是分散在直线周围。为了找出一条直线,使各实验点到直线的距离最短(误差最小),需要用数理统计方法,利用最小二乘法关系算出相应的方程 y = a + bx 中的系数 a 和 b,这样的方程称为 y 对 x 的回归方程,相应的直线称为回归直线。
式中 a 为直线的截距,与系统误差大小有关,b 为直线的斜率,与方法灵敏度有关。
相关系数
若 a、b 值确定,回归方程也就确定了。但这个方程是否有意义呢(因为即使数据误差很大,仍然可以求出一相应方程)?这就需要判断两个变量 x 与 y 之间的相关关系是否达到一定密切程度,为此可采用相关系数 (r) 检验法。
当 r = ±1 时
两变量完全线性相关,实验点全部在回归直线上。
当 r = 0 时
两变量毫无相关关系。
当 0 < |r| < 1 时
两变量有一定的相关性,只有当 |r| 大于某临界值时,二者相关才显著,所求回归方程才有意义。
分光光度法测定酚含量的数据如下:
| 酚含量 x | 0.005 | 0.010 | 0.020 | 0.030 | 0.040 | 0.050 |
|---|---|---|---|---|---|---|
| 吸光度 y | 0.020 | 0.046 | 0.100 | 0.120 | 0.140 | 0.180 |
用回归方程表示酚含量与吸光度的关系,并检查方程是否有意义。
Σxi = 0.155,Σyi = 0.606,Σxiyi = 0.0208
x̄ = 0.0258,ȳ = 0.101
Σxi² = 0.0055,Σyi² = 0.0789
b = 0.0051 / 0.0015 = 3.4
a = 0.101 − 3.40 × 0.0258 = 0.013
回归方程为 y = 0.013 + 3.4x
利用此方程只要测得 y(吸光度)即可求得试样中酚含量 x。
检查 x 与 y 的相关系数,代入式(2-28)得 r = 0.996。
查表 2-6,当 f = 6 − 2 = 4 时,选置信度 95%,r临 = 0.811,r计算 > r临,表明方程是有意义的,含量与吸光度之间有较好的线性关系。
思考题
准确度和精密度,误差和偏差有何区别与联系?
下列情况分别引起什么误差?如果是系统误差,应如何消除?
(1)砝码被腐蚀;(2)天平两臂不等长;(3)容量瓶和吸管不配套;(4)重量分析中杂质被共沉淀;(5)天平称量时最后一位读数估计不准;(6)以含量为99%的邻苯二甲酸氢钾作基准物质标定碱溶液。
用标准偏差和算术平均偏差表示结果,哪一种更合理?
如何减少随机误差?如何减少系统误差?
某铁矿石中含铁 39.16%,若甲的分析结果为 39.12%,39.15% 和 39.18%,乙的分析结果为 39.19%,39.24% 和 39.28%。试比较甲、乙两人分析结果的准确度和精密度。
习题
已知分析天平能称准至 ±0.1 mg,要使试样的称量误差不大于 ±0.1%,则至少要称取试样多少克?
某试样经分析测得含锰质量分数为 41.24%,41.27%,41.23%,41.26%。求分析结果的平均偏差、标准偏差和变异系数。
某矿石中钨的质量分数测定结果为 20.39%,20.41%,20.43%。计算标准偏差及置信度为 95% 时平均值的置信区间。
水中 Cl⁻ 含量经 6 次测定,求得其平均值为 35.2 mg·L⁻¹,s = 0.7 mg·L⁻¹,计算置信度为 90% 时平均值的置信区间。
用 Q 值检验法判断下列数据中有无应舍弃的?置信度选 90%。
(1)24.26,24.50,24.73,24.63
(2)6.400,6.416,6.222,6.408
(3)31.50,31.68,31.54,31.82
测定试样中 P₂O₅ 的质量分数,测定结果为 8.44%,8.32%,8.45%,8.52%,8.69%,8.38%。
用 Grubbs 检验法及 Q 值检验法对可疑数据决定取舍,求平均值、平均偏差、标准偏差和置信度为 90% 及 99% 时平均值的置信区间。
有一标准试样,其标准值为 0.123%,今用一新方法测定,测定结果为 0.112%,0.118%,0.115%,0.119%。判断新方法是否存在系统误差。置信度选 95%。
用两种方法测得数据如下:
方法 I:n₁ = 6,x̄₁ = 71.26%,s₁ = 0.13%
方法 II:n₂ = 9,x̄₂ = 71.38%,s₂ = 0.11%
判断两种方法间有无显著性差异。
用两种方法测定钢样中碳的质量分数,数据如下:
方法 I:4.08%,4.03%,3.94%,3.90%,3.96%,3.99%
方法 II:3.98%,3.92%,3.90%,3.97%,3.94%
判断两种方法的精密度是否有显著性差异。
下列数据各包含几位有效数字:
(1)0.0251 (2)0.2180 (3)1.8×10⁻⁵ (4)pH = 2.50
按有效数字运算规则计算下列各式:
(1)2.187 × 0.854 + 9.6 × 10⁻⁵ − 0.0326 × 0.00814
(2)51.38 / (8.709 × 0.0960)
(3)(9.827 × 50.62) / (0.005164 × 136.6)
(4)√[(1.5 × 10⁻⁸ × 6.1 × 10⁻⁸) / (3.3 × 10⁻⁶)]
为了判断测定氯乙酸含量的方法是否可行,今对一质量分数为 99.43% 的纯氯乙酸进行测定,测定 10 次,数据如下:
97.68%,98.10%,99.07%,99.18%,99.41%,99.42%,99.70%,99.70%,99.76%,99.82%
试对这组数据:(1)进行异常值检查;(2)将所得平均值与已知值进行 t 检验,判断方法是否可行;(3)表示分析结果;(4)计算该法重复性,以近似表达两次平行测定间的允许差。
英汉对照词汇
复习本章的指导提纲
基本概念
误差、准确度、偏差、精密度、重复性、再现性、系统误差、随机误差、正态分布、t 分布、置信度、置信区间、有效数字、回归分析、相关系数。
基本知识点
- 绝对误差与相对误差的计算及其关系
- 绝对偏差与相对偏差的计算
- 平均偏差与标准偏差的计算及意义
- 准确度与精密度的关系
- 系统误差的来源、性质及消除方法
- 随机误差的正态分布特征
- t 分布与置信区间的计算
- 可疑数据的取舍(Grubbs 检验法、Q 值检验法)
- t 检验法的应用(平均值与标准值比较、两个平均值比较)
- F 检验法判断精密度的显著性差异
- 误差的传递公式
- 有效数字的规则与运算规则
- 标准曲线的回归分析与相关系数的检验