问题编号:10512   浏览人次:1599   回答:2   顶:0   踩:0
收藏 分享链接:
解答状态:待完善    评论状态: 可以

黄妮 (2014-08-10提问)

陈老师,您好!我用power GREP将文本中的空格和空白删除,使用的命令是:search and replace : \s+,然后用powerConc对整理后的文本进行词频统计,结果有错误:word中查找得出的高频词没有出现在N-gram list中,请问如何如何检查和修改?

陈功 2014-08-11

满意答案!
您可以贴一小段文本过来吗?我得先看下文本是什么样的状态。
现有3条回复     顶:1   踩:0
黄妮: (2014-08-11 09:30)
陈老师,感谢您的回复。 文本原文部分:   二、鼓励高校毕业生到城乡基层就业   各地区要结合城镇化进程和公共服务均等化要求,充分挖掘教育、劳动就业、社会保障、医疗卫生、住房保障、社会工作、文化体育及残疾人服务、农技推广等基层公共管理和服务领域的就业潜力,吸纳高校毕业生就业。要结合推进农业科技创新、健全农业社会化服务体系等,引导更多高校毕业生投身现代农业。全面落实高校毕业生到中西部地区和艰苦边远地区县以下基层单位就业的学费补偿和助学贷款代偿政策,尚未制定学费补偿和助学贷款代偿办法的地区,要在年内出台。高校毕业生在中西部地区和艰苦边远地区县以下基层单位从事专业技术工作,申报相应职称时,可不参加职称外语考试或放宽外语成绩要求。充分挖掘社会组织吸纳高校毕业生就业潜力,对到省会及省会以下城市的社会团体、基金会、民办非企业单位就业的高校毕业生,所在地的公共就业人才服务机构要协助办理落户手续,在专业技术职称评定方面享受与国有企事业单位同类人员同等待遇。继续统筹实施好大学生村官、“三支一扶”等各类基层服务项目,健全鼓励高校毕业生到基层工作的服务保障机制。各地要为高校毕业生参加实习、见习、志愿服务等活动创造条件,并将参加实习、见习、志愿服务等活动作为高校毕业生求职的实践经历。要加大工作力度,健全体制机制,鼓励支持更多高校毕业生参军入伍。 整理后的对应部分: 二、鼓励高校毕业生到城乡基层就业各地区要结合城镇化进程和公共服务均等化要求,充分挖掘教育、劳动就业、社会保障、医疗卫生、住房保障、社会工作、文化体育及残疾人服务、农技推广等基层公共管理和服务领域的就业潜力,吸纳高校毕业生就业。要结合推进农业科技创新、健全农业社会化服务体系等,引导更多高校毕业生投身现代农业。全面落实高校毕业生到中西部地区和艰苦边远地区县以下基层单位就业的学费补偿和助学贷款代偿政策,尚未制定学费补偿和助学贷款代偿办法的地区,要在年内出台。高校毕业生在中西部地区和艰苦边远地区县以下基层单位从事专业技术工作,申报相应职称时,可不参加职称外语考试或放宽外语成绩要求。充分挖掘社会组织吸纳高校毕业生就业潜力,对到省会及省会以下城市的社会团体、基金会、民办非企业单位就业的高校毕业生,所在地的公共就业人才服务机构要协助办理落户手续,在专业技术职称评定方面享受与国有企事业单位同类人员同等待遇。继续统筹实施好大学生村官、“三支一扶”等各类基层服务项目,健全鼓励高校毕业生到基层工作的服务保障机制。各地要为高校毕业生参加实习、见习、志愿服务等活动创造条件,并将参加实习、见习、志愿服务等活动作为高校毕业生求职的实践经历。要加大工作力度,健全体制机制,鼓励支持更多高校毕业生参军入伍。 用PowerConc检索后的前十位结果: #Term(s) Freq. #Size 5554 #Tokens 2329 #Types 1145 业生 107 创业 52 服务 42 企业 25 各地 22 地区 21 业创 21 政策 21 人才 15 有关 15 发展 14 信息 14 门要 12 培训 12 需求 12 我的问题是:用PowerGREP自动查找和删除\s+, 用PowerConc检索词频,此结果不包含word查找中的高频词“就业”,词频为99。请问这两个软件在处理中文文本时是否有限制,有什么方法可以处理该问题? 谢谢您!
陈功: (2014-08-14 14:24)
在用PowerConc检索词频的时候您一定用的是Ngram-list的功能吧,而且把word length设为了2?由于您的文本没有分词,所以软件做词频的时候会自动把每两个字切分为一个词,这样,“就业”这个词很可能就一分为二地切开了,比如,您给的词里面有“业创”,有可能就是这种情况。PowerConc本身是可以处理分过词的文本的,需要您在加载文本时在右侧Format一处选择segmented。 建议您对文本进行分词,当然这就需要您找一个中文分词软件来完成这个工作。网上有一些免费的软件,您可以找来试试。
黄妮: (2014-08-16 11:22)
谢谢陈老师。

陈功 2014-08-14

满意答案!
关于中文分词,有个博客可以看http://www.cnblogs.com/me115/archive/2010/03/23/1692745.html。
免费的小软件,比如庖丁解羊、百度在线中文分词都可以试试,这两个小软件都是需要把文本贴进去分词,如果文本量大的话,有点麻烦。不过至少还是可以用的。也可以找找“ICTCLAS”,不知道网上现在还有没有。
现有1条回复     顶:0   踩:0
黄妮: (2014-08-16 11:23)
明白,我先做做,谢谢陈老师的细致回复。祝您周末愉快!