I have annotation matrix with following description: 3 Annotators, 3 categories, 206 subjects
The data is stored in a numpy.ndarray variable z:
array([[ 0., 2., 1.],
[ 0., 2., 1.],
[ 0., 2., 1.],
[ 0., 2., 1.],
[ 1., 1., 1.],
[ 0., 2., 1.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.],
[ 0., 3., 0.]])
As can be seen 200 out of 206 annotations are for the same categories by all three annotators. Now implementing the Fleiss Kappa:
from statsmodels.stats.inter_rater import fleiss_kappa
fleiss_kappa(z)
0.062106000466964177
Why is the score so low in spite majority subjects (200/206) are annotated for the same category?