作者:俞士汶 北大教授 客座博客
8、随着中文信息数字化进程的加快,特别是搜索引擎行业的发展,对中文语言处理人才的需求在加大,请介绍一下目前国内在这方面教育情况?
根据中国国家标准《学科分类与代码表》(GB/T13745--92 )。在一级学科“计算机科学技术”下的二级学科“人工智能”里包含三级学科“自然语言处理”(520.2020)。在一级学科“语言学”下的二级学科“应用语言学”里包含三级学科“计算语言学”(740.3550)。由此可见,自然科学与语言学交叉渗透所取得的成果在学科体系中已经有了一席之地。不过,无论是“计算语言学”还是“自然语言处理”都还是三级学科,这意味着在大学里设置系或专业从本科起就开始培养中文信息处理人才还是受到限制的。据笔者了解,目前只有北京大学中文系设有应用语言学(中文信息处理)专业,南京师范大学设有语言技术系。不过,培养研究生的路子就宽多了,中国的大学大约1990年代初开始培养“计算语言学”和“自然语言处理”研究方向的博士生,培养硕士生更早,1980年代中期就开始了。现在已有相当数量的博士和硕士在发挥生力军的作用。
不过,按“计算语言学”和“自然语言处理”研究方向培养的博士和硕士属于高级研究人才,数量毕竟有限,满足不了中文信息化迅速发展的需求。特别是搜索引擎等信息服务业的发展,更增加了对既有计算语言学理论基础、又有丰富的语言工程实践经验的工程技术人员的需求。鉴于这样的认识,在杨芙清院士的倡导下,北大计算语言研究所和北大软件与微电子学院决定共同建设语言信息工程系,下设语言信息处理和计算机辅助翻译两个专业。对学习合格的学生将授予北京大学工程硕士学位。这是中国计算语言学研究逐步成熟、走向社会、服务大众的又一重要标志。
9、请简要介绍一下北大计算语言所的背景。开展了哪些中文语言处理方面的研究?取得了什么样的成绩?
北京大学计算语言学研究所(Institute of Computational Linguistics,ICL)成立于1986年,是一个文理学科结合的研究所。20年来,在培养了数十名博士、硕士的同时,在计算语言学和自然语言处理技术领域进行了广泛、深入的研究,研究课题涉及语言模型与分析技术、计算词典学与词典编纂、语料库语言学、术语学与术语标准化、计算语义学、机器翻译的理论与技术、自然语言处理评价技术、信息提取与信息检索技术、中国古诗计算机辅助深层研究等,这些课题来自国家973、国家863、国家自然科学基金、国家社会科学基金、国家科技攻关项目和部级项目,也有与国内外著名企业、大学、研究机构的横向合作项目。
除了论著之外,北大计算语言所在语言数据资源建设方面有较多的积累:现代汉语语法信息词典(8万词语),大规模现代汉语基本标注语料库(6000多万汉字),面向汉英机器翻译的现代汉语语义词典(6万),面向跨语言文本处理的中文概念词典(10万概念),句子对齐的双语语料库(80万句对),多个专业领域的术语库(35万术语),现代汉语短语结构规则库(600条规则)以及支持这些知识库建设的工具软件,如汉语词语切分及词性标注软件、汉语词语注音软件等,这些知识库和软件已在世界各地得到广泛应用,产生了广泛的影响。
没有搜索框的搜索
http://www.ta6678.cn
http://www.xxlsc.cn
支持多谈技术!
发布者:hi - 2007年07月13日 16:27在讲大学课程啊?很是头晕,但是还可以看下去
发布者:meteor - 2007年02月16日 9:31艾羽华生.经常看你来这里.没有变大啊.1024更实用一点.800的整洁一点.你用1024分辨率看800分辨率试下.再注意下首页的内容.都是与搜索相关的推荐.我想雅虎不会像新浪那样的.
发布者:jimmy - 2006年08月04日 15:48我觉得新首页没有旧首页好。太复杂了,还太大了。很不习惯。可以简单一些,千万别越改越大,直到变成新浪那样子。
发布者:艾羽华生 - 2006年08月04日 11:28新首页非常棒.特别是用1024分辩率来看800*600页面.很有特色.首页内容丰富却不显乱.现在首页可推荐的搜索信息更多了.雅虎还是搜索.太棒了.赞一个.
发布者:jimmy - 2006年08月04日 0:17别老别雅虎技术.多说说雅虎的产品.每次说技术就没有人看了也没有人评论了.说说雅虎员工都比说雅虎技术好.
发布者:jimmy - 2006年08月03日 15:43