您的位置  > 互联网

横跨文理工三大学科领域计算语言学方兴

横跨文、理、工三大学科门类

计算语言学是一门跨越语言学、数学和计算机科学的跨学科学科。 它同时涉及文、理、工三大领域,具有学科交叉性。 学者从事计算语言学研究时,不仅要有语言学知识,还要有数学和计算机科学知识。 教育部语言文字应用研究所研究员冯志伟告诉记者,面对信息网络时代的新要求,很多语言学家正在努力学习计算机自然语言处理技术,不断更新知识并再次学习,成为语言学、数学和计算机科学领域的新一代语言学家。

北京大学是计算语言学研究的重要中心。 在谈到当前计算语言学的前沿时,北京大学计算语言学研究所所长王厚峰告诉记者,过去20年,统计和机器学习方法主导了自然语言处理。 无论是统计方法还是机器学习方法,其基础都是数据。 因此,可以说,20多年来,自然语言处理主要是由数据驱动的。 近年来深度学习的发展进一步强化了数据的作用,特别是无标签语言数据的使用。 在深度学习的大框架下,出现了一些代表性技术,比如预训练语言模型的出现。

计算语言学已开始得到广泛应用。 以机器翻译为例,冯志伟表示,当前国际计算语言学研究在机器翻译方面取得了很大成果。 机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段,目前正在投入实际应用。 而商品化,机器翻译已经从学者的梦想变成了现实。

发挥优势促进学科融合

近年来,随着人工智能、数字人文、大数据等领域的快速发展,以及新文科建设的需要,各地学术机构结合各自学科优势,推进研究工作并建立了计算语言学、自然语言处理领域的研究所。 新的学术机构和新的平台。 例如,2019年6月成立北京语言大学语言智能研究院,2019年7月清华大学人工智能研究院成立自然语言处理与社会人文计算研究中心。

王厚丰介绍了他们目前的新研究。 一是跟踪改进。 例如,在预训练模型方面,尝试融入多模态信息,包括结构化知识。 二是模型效率的提升。 在目前的深度学习框架下,训练复杂度非常高,如何降低复杂度是一个需要研究的问题。 三是加强以汉语为核心的语言知识挖掘研究。

北京语言大学教授宋柔表示,语言学和语言工程之间仍然存在脱节。 要推动语言学与语言工程深度融合,加强合作,建立语言知识体系。

清华大学中文系教授刘石与清华大学计算机科学与技术系教授孙茂松展开学术合作,提出建设“中国古典文学”的设想知识库。” 刘石目前承担的国家社科基金重大项目“基于大数据技术的中国古代文学经典分析研究”,利用计算语言学和自然语言处理技术自动实现古典诗词分词和知识图谱工作。 专注于古典诗词文本的词汇抽取、分词和关联分析,推出“古典诗词知识图谱”。

经验主义和理性主义方法的结合

如何进一步推进研究,王厚丰表示,我国学术界相关方面基本都是跟进研究,还需要创新研究。 尤其是对汉语的计算研究还比较缺乏。 汉语有很多自己的特点。 未来需要结合中国人的特点开展相关研究。

冯志伟认为,目前,在计算语言学研究中,深度学习方法已经成为主流方法,几乎​​应用于计算语言学研究的所有领域。 这是一种基于语言大数据的经验方法,忽略了语言规则。 深度学习应与语言学研究相结合,基于语言大数据的经验主义方法与基于语言规则的理性主义方法相结合,相互促进、相辅相成,从而推动计算语言学的进一步发展。