问题编号:16045   浏览人次:538   回答:1   顶:0   踩:0
收藏 分享链接:
解答状态:待完善    评论状态: 可以

reaganfu@126.com向吉洁提问 (2016-02-21提问)

吉老师,过年好!在用语料库软件计算词语搭配强度时,有T-Score, Log-likelihood等,梁茂成等老师编写的语料库应用教程中说T-Score的约定俗称临界值是2(p.98). 请问,Log-likelihood 有这样一个约定俗成的临界值吗?如果有,请问是多少?如果没有,请问一般如何选取?

吉洁 2016-03-09

您好!在使用BFSU Collocator计算搭配强度时,一般按照从高至低的顺序进行排序,然后再从中选取有意义的多元单位。与计算Keywords不同的是,阈值并不能对搭配的选取起决定作用。即,在一定阈值之上的词姑且都可看作是keywords,但一定阈值之上的搭配并不一定都是有意义的多元单位,仍然需要人工筛选。阈值并不能解决其中混杂不是的搭配。Log-likelihood的阈值可以根据其相应的显著性来选取,p值为0.05时值为3.84,p值为0.01时值为6.63,p值为0.001时值为10.83,p值为0.0001时值为15.13。
现有0条回复     顶:0   踩:0