问题编号:20317   浏览人次:191   回答:1   顶:0   踩:0
收藏 分享链接:
解答状态:待完善    评论状态: 可以

94d5c0d2595f4030912259cb5a46e5fb向刘国兵提问 (2019-03-03提问)

老师好,想请教一下,在建设新闻语料库时,BBC、CNN、中国日报等报纸都有现成的电子文本,很方便收集。这样的情况下可否直接全部收录,不再抽样呢?我要建的语料库,涉及的相关报道大概在300篇左右。谢谢老师!

uliliang 2019-04-06

纠正下误判,BBC已经处于暂时无法被大陆网民访问的状态,CNN或BBC或ChinaDaily这些新闻类网站的语篇如果要“直接全部收录”是极为困难的哟,哪怕像我这种网页语料爬虫编程的高手也要“颇费心机、颇费规划”,编程实现自动化抓取也要几十个小时的。简单做个数学题,每个英语新闻综合网站每天有50篇新闻则一年有18250篇,手工进行网页保存的时候每页需要至少5秒则18250篇需要25小时手工操作,但你不可能日夜不停操作,25小时连续操作是极为枯燥的,每天5小时也要5天时间才能手工下载某个新闻网站仅仅1年的语篇,而BBC或ChinaDaily这些网站已经年龄在20年以上了,因此“直接全部收录”是巨大的编程工程,人工难以应付。抽样,并不是软弱或片面的代名词,语料抽样的合情合理要考虑自己的技术能力、写作类型、中短期的学术目标。“我要建的语料库,涉及的相关报道大概在300篇左右”你这句话似乎暗示你“另有隐情”,也似乎暗示你“可否直接全部收录”是特指300篇而已,如果是这样,就直接干吧,300篇就半小时左右的小劳动、小任务。我微信号liliang_1975,欢迎加友、继续交流!
现有0条回复     顶:0   踩:0