问题编号:20449   浏览人次:251   回答:1   顶:0   踩:0
收藏 分享链接:
解答状态:待完善    评论状态: 可以

ac2076b0efee43deaa7f192a6dceb076 (2019-04-21提问)

老师您好?请问收集完语料后应该怎么进行文本处理?还有就是不同的景点介绍语料是否需要分作不同文本,还是全部语料统一保存在一个文档中?

uliliang 2019-04-29

你所说的“文本处理”你自己并没界定下,也许你所说的文本处理就是语料处理与分析,那么这就太大的话题了,这要看你做什么任务,而如果你所问的“文本处理”就是语料预处理或文本清理,那么也涉及到较多的项目,包括采用正则式对冗余的连续的空格的批量清理、采用正则式对连续空白段落的批量清理、采用正则式对PDF转TXT之后的页眉页脚所对应的无效词句的批量清理。
至于景点介绍的语料语篇是否要每个语篇独立为一个文件,这也要看你的任务需求和技术能力,如果你技术能力或软件操作能力较弱,多个语篇在同一个文件中就当然很难统计每个语篇是多少单词量。语篇都集中到一份文件的好处是便于一口气的批量汇总统计。但是语篇是否独立为文件,哪里需要苦恼呢,你找个文本合并工具,一下子就合并了,然后你手中拿着合并版和分离版两套语料,想要用哪套就用哪套,根据自己需要。对了,微软Office的Word的菜单“插入 -> 文件”,就能让你一次性选中一系列文件而合并到当前Word文件哟,所以,学到适当的Office、Windows及Internet的最基础技能往往就是最便捷的语料技能啦!我微信liliang_1975,欢迎加友,我手机号18504348064,也欢迎私聊
现有0条回复     顶:0   踩:0