自然语言与数据科学课程详细信息

课程号 04631011 学分 1
英文名称 Natural language and data science                                   
先修课程        
中文简介         自然语言处理是信息时代的技术基石:一方面,我们已经大量地使用这项技术——搜索引擎,广告推荐,垃圾邮件处理,智能客服,机器翻译……自然语言处理在我们的生活中无处不在。另一方面,让机器“理解”复杂的自然语言也是我们最终实现强人工智能的必要条件。
   在这门课程中,我们会介绍自然语言处理中的一些基本概念以及自然语言背后的一些数学模型,并帮助大家理解为什么自然语言是“可计算”的。同时,课程也会介绍一些自然语言处理方面的前沿研究,特别是深度学习技术在自然语言处理上的应用。

                                                                 
英文简介     Natural language processing (NLP) is one of the most important technologies of the information age. Applications of NLP are everywhere: web search, advertisement, emails, customer service, language translation, etc. Understanding complex language utterances is also a crucial part of artificial intelligence.
This course introduces the fundamental concepts and ideas in natural language processing (NLP). It develops an in-depth understanding of both algorithms for processing linguistic information and the underlying computational properties of natural languages. The course also provides an introduction to cutting-edge research in deep learning applied to NLP.
                                                                                         
开课院系 元培学院
通选课领域  
是否属于艺术与美育
平台课性质  
平台课类型  
授课语言 中文
教材 The Language Instinct.,Steven Pinker,Harper Perennial Modern Classics,2007,数学之美,吴军,人民邮电出版社,2014,语言学纲要,叶蜚声、徐通锵(著)王洪君、李娟(修订),北京大学出版社,2010,数理语言学,冯志伟、胡凤国,商务印书馆,2012,数据科学导引,欧高炎、朱占星、董彬、鄂维南,高等教育出版社,2017,语言本能,斯蒂芬·平克(著)欧阳明亮(译),浙江人民出版社,2015,
参考书
教学大纲 在这门课程中,我们会介绍自然语言处理中的一些基本概念以及自然语言背后的一些数学模型,并帮助大家理解为什么自然语言是“可计算”的。同时,课程也会介绍一些自然语言处理方面的前沿研究,特别是深度学习技术在自然语言处理上的应用。
第一次(教师讲授)《丰富多彩的人类语言——大数据时代的机遇与挑战》
【建议配套阅读《语言本能》“02心语”(Mentalese)、“07 为什么地球上会存在那么多不同的语言”(The Tower of Babel)这两章中部分内容】
(约一小时)从大家熟知的汉语和英语出发,介绍汉藏语系和印欧语系主要语言的形态特征、谱系分类、共时比照、历时演变。旁及亚欧大陆上其它常见语言,如乌拉尔诸语言、突厥诸语言、朝鲜语、日本语、越南语、泰语等。
(约一小时)介绍自然语言机器处理的两大重要挑战:语义的定量化表示、机器翻译。与之相关的当代人工智能算法简介。语义场的基本概念。Chomsky-Pinker的“大同语言” (universal language)、“心语” (mentalese)思想概述。
第二次(教师讲授)《机器听“人话”》
【课前在助教指导下,学习《语言本能》“05 语音的奥秘”(The Sounds of Silence)。并由助教抽查国际音标的掌握情况(限中学英语课程大纲范围内)】
(约一小时)结合演示实验说明声音产生的物理机制。音高、音强、音色的物理意义。元音和辅音的声学表征。重音和声调的定量化表示。国际音标表介绍。
(约一小时)语音识别算法简介。时间域和频率域的数据分析。
第三次(学生报告)《二叉树在自然语言处理中的应用》
【课前在助教指导下,学习《语言本能》中“03语言机制”一章(参考英文版4. How Language Works)中部分内容】
(约一小时)二叉树简介。家系图。Catalan数的“添括号解释”与“二叉树解释”。Huffman编码。自然语言处理中的应用。(可以参考Wikipedia中 “binary tree”、 “Catalan number”、“Huffman coding”这些页面。要求用中文作报告。)
(约一小时)问答与互动。
第四次(学生报告)《词向量及其应用》
【课前在助教指导下,学习《数学之美》中“第11章 如何确定网页和查询的相关性”和“第14章 余弦定理和新闻的分类”】
(约一小时)TF-IDF的基本概念与应用。词的向量化。词的余弦相关度。
(约一小时)问答与互动。教师会适当介绍词向量在词义类比和机器翻译中的应用。
第五次(教师讲授、学生报告)《词干提取》、《分词技术》
【课前在助教指导下,学习《数学之美》中 “第4章 谈谈中文分词”及其部分参考文献】
(教师讲授约一小时)欧洲语言的词干提取问题。基于规则和基于统计的解决方案。
(学生报告约一小时)亚洲语言(特别是中文)的分词问题。基于规则和基于统计的解决方案。
【期中考试两周,不授课。】
第六次(教师讲授)《Markov链及其在计算语言学中的应用》
【课前在助教指导下,学习《数学之美》中前3章】
(约一小时)Markov 链的基本概念与性质。基于大数据的转移概率计算。
(约一小时)Markov转移矩阵在自然语言处理和人工智能中的应用。
第七次(学生报告、教师讲授)《网页排名的PageRank算法》、《Bayes网络》
【课前在助教指导下,学习《数学之美》中“第10章 PageRank——Google的民主表决式网页排名技术”和“第24章 马尔可夫链的扩展——贝叶斯网络”】
(学生报告约一小时)Markov转移矩阵乘法的概率意义。PageRank算法的基本思想。迭代的收敛性。
(教师讲授约一小时)从Markov链到Bayes网络的拓展。在主题模型中的应用。
第八次(特邀专家报告)《人工神经网络和对话系统》
【课前在助教指导下,学习《数学之美》中“第30章  Google大脑和人工神经网络”】
(约一小时)卷积神经网络。循环神经网络。注意力机制。人工智能对话系统。
(约一小时)问答与互动。
教师讲授(含演示实验)、学生报告、师生讨论。每次课历时两小时。
学生的最后成绩由平时出勤、课堂表现(报告与问答互动)和期末论文小结综合评定。
教学评估 鄂维南:
学年度学期:18-19-1,课程班:自然语言与数据科学1,课程推荐得分:0.0,教师推荐得分:8.33,课程得分分数段:90-95;
周亚俊:
学年度学期:18-19-1,课程班:自然语言与数据科学1,课程推荐得分:0.0,教师推荐得分:8.85,课程得分分数段:90-95;
学年度学期:19-20-1,课程班:自然语言与数据科学1,课程推荐得分:0.0,教师推荐得分:8.5,课程得分分数段:95-100;