自然语言处理研究生项目TOP Universities
自然语言处理技术是我们生活中使用的很多工具的重要组成部分,比如搜索引擎,语音识别,机器翻译等。在美国大学的研究生院里,自然语言处理是计算机科学和语言学的交叉领域,被命名为Natural Language Processing (NLP), 也经常被叫做Computational Linguistics或Human Language Technology。在文书辅导服务中,我们也在使用NLP来分析文本保证文书质量,因此我们对NLP也有着非常浓厚的兴趣。于是今天找来了几所学校的自然语言处理硕士项目,共感兴趣的同学参考。
之所以想为大家介绍硕士项目,是因为自然语言处理或计算语言学领域里,科研是非常重要的一部分,因此研究生学位里更常见的是博士项目,而即使是硕士项目,一般也都有科研或论文要求。如果你想对自然语言处理更深入地学习和研究,但还不确定是否要直接进入一个五年甚至更长的博士项目,那两年的硕士项目应该是更好的选择。硕士项目让学生在毕业后有更多的选择,比如直接就业NLP领域或者继续攻读博士学位。提供NLP或者计算语言学硕士项目的学校一般也会提供博士项目,而且硕士期间的课程学分可以转入博士学位。
注意:以下学校顺序与综合或专业排名无关。
CMU - Master of Language Technologies (Research based)
CMU的Language Technologies Institute是集中研究语言和信息技术的部门。这里为对自然语言处理、机器翻译、信息提取、信息检索、语音处理、机器学习等研究领域感性的同学提供五个研究生学位:Master of Language Technologies, Ph.D. in Language and Information Technology, Master of Science in Intelligent Information System, Master of Computational Data Science, 和Master of Science in Artificial Intelligence and Innovation。
语言技术硕士项目要求学生修满120个学分,10门左右的课程(两年)。课程包括Grammars and Lexicons, Algorithms for NLP, Search Engines or Machine Learning for Text Mining, Machine Translation, Speech Understanding, Software Engineering for Language Technology等。很多语言技术硕士学生获得CMU的RA奖学金(学费和补贴)。即使有的学生没有获得奖学金,一般也只需要第一学期自费,第二学期开始大部分都会拿到RA。
申请要求主要包括:GRE,TOEFL(最低100,每部分最低22)或IELTS(最低7.5),成绩单(GPA最低3.0),简历,文书,视频自我介绍,和三封推荐信。申请者的本科专业背景包括数学、计算机科学、工程等专业。
Johns Hopkins University - Human Language Technology Masters Concentration
JHU的人类语言技术硕士项目是计算机科学或计算机工程硕士项目的一个分支,也就是说学生需要申请Masters in Computer Science, Masters in Electrical Computer Engineering或PhD项目,然后选择Human Language Technology (HLT) concentration,完成相应的课程和科研要求。课程包括Intro to HLT, NLP和Information Extraction from Speech and Text以及其他CS或ECE的基础课程要求(共十门左右的课程)。科研包括一个HLT相关的硕士项目或论文项目。选修课学生可以选择更多的HLT相关的课程。
先修课包括中级编程 (C++ 和Java), data structures, automata theory, computer systems fundamentals 和 algorithms。
申请要求包括GRE(建议V153+,Q160+),TOEFL(建议100+)或IELTS(建议7+),成绩单,简历,文书和两封推荐信。
Rochester - Master of Science in Computational Linguistics
Rochester的计算语言学硕士项目开设在语言学系,该系主要的合作院系包括脑与认知科学和计算机科学系。这个项目要求学生修满32个学分(四个学期)。课程设置包括四门计算机科学课程和四门语言学课程,以及最后的毕业项目或论文。计算机科学的课程包括Statistical Speech and Language Processing, Natural Language Processing, Data Mining, Machine Learning等;语言学方面,学生需要从以下三个方向中选择一个来完成选课:语音结构、语法结构和语义。同时,硕士学生有可能获得TA和RA机会。
先修课方面,学校建议申请者修过离散数学,线性代数,计算机系统,数据结构,编程和语言分析导论。没有语言学基础的申请者,有可能被有条件录取,入学后需要修语言分析导论。
申请要求主要包括GRE, TOEFL(建议95+)、 IELTS(建议7+)或Duolingo(建议120+),成绩单,简历,文书,三封推荐信和写作样本。注意,这个项目2022秋季入学申请时要求GRE的,但如果你因为某些原因无法参加GRE考试,也可以申请;学校通过写作样本来评估申请者的学术(科研)能力,样本可以是课程论文或科研项目报告或论文,研究课题可以是语言学或其他领域。
Georgetown - Master of Science in Computational Linguistics
Georgetown的计算语言学硕士开设在语言学院下,该项目要求学生完成24(thesis)或30(research paper)学分,一般耗时两年。其中包括9学分的基础课(Sound, Form和Meaning),9学分的核心课程(Introduction to NLP, Computational Corpus Linguistics和另外一门语言学的课程),和选修课(可从二十多门课中选择)。根据学生在本科期间的计算机科学和语言学基础,导师可能会帮助学生选择更高阶的课程来代替核心课。选择完成thesis的学生需要在提交proposal,完成科研、论文和最后的答辩。选择research paper的学生则无需提交proposal,科研项目的深度要求也比thesis的略低一些。
除此之外,语言学院要求所有硕士和博士学生精通一门外语来辅助语言分析学的学习(母语非英语的,英语可算作学习目标),学生可以通过上课、参加学校测试、TOEFL/IELTS等方式来满足这个要求。TOEFL写作低于28,IELTS写作低于7.5的学生需要在秋季学期开始前通过学校的英语写作水平测试。
申请时,没有先修课要求,但计算机科学和/或语言学的专业背景是加分项。
申请要求包括:2022-2023申请无需提交GRE,TOEFL(最低100)或IELTS(最低7.5),成绩单,简历,文书,三封推荐信(至少两封来自学校教授或老师),和写作样本。写作样本建议是可以表现申请者写作、科研和分析水平的英文课程论文,研究报告或论文,长度建议15-40页。
University of Washington - Master of Science in Computational Linguistics
UW的计算语言学硕士学位要求学生完成43学分,包括9门课程和一个硕士项目。科研项目可以选择科研+论文,或者6到10周的实习。课程包括6门核心和3门选修。核心课程包含两门语言学课程(Intro to Linguistic Phonetic和Intro to Syntax for Computational Linguistics)和四门自然语言处理课程(Shallow Processing Techniques, Deep Processing Techniques, Advanced Statistical Methods in NLP, 和Language Processing Systems and Application)。除了以上课程,学院还提供全年的企业研讨课,邀请计算语言学的专业人士跟学生一起探讨产品和科研相关的主题。考虑到UW优越的地理位置,学生有很多机会与各个西海岸著名tech公司的工作人员交流。
关于UW的这个硕士项目,需要提醒大家的一点是,课程是线上和线下结合授课的。也就是说,你可以选择上网课,也可以选择到校园上课。
申请这个项目的先修课要求包括计算机科学和编程导论(C++, Java需要掌握一个,同时建议会使用Python或Perl)、数据结构与算法、语言学导论、概率论和统计。先修课可以是网课(比如MIT的 Introduction to Probability – The Science of Uncertainty, edX上的 Computational Probability and Inference, 或者 Stanford Online’s Probability and Statistics)。不满足先修课要求的学生还是可能被录取。录取的学生需要在暑假通过水平测试,未通过的需要修入门课程。UW鼓励来自各个不同专业背景的学生申请计算语言学硕士项目,将自然语言处理应用到不同专业领域中去。
申请材料包括TOEFL(最低80,建议92+)、IELTS(最低6.5,建议7.0+)或Duolingo(最低105,建议120),成绩单(最后60学分的课程GPA最低3.0),简历,文书,两到三封推荐信,和写作样本(可以是编程项目、论文或工作报告)。不需要提交GRE。语言成绩满足最低要求,但低于建议分数的,入学后可能需要上英语课。
UC Santa Cruz - Natural Language Processing M.S.
UCSC的自然语言处理硕士项目要求学生完成50个学分(一年)。课程设置包括5门核心课(NLP, Data Collection, Wrangling & Crowdsourcing, Machine Learning等),两门选修课(Applied NLP, Linguistic Models of Syntax & Semantics for Computer Scientists, Computational Models of Discourse and Dialogue等),和毕业项目(以3-5人小组的形式,由教授或企业合作者指导完成)。
申请者的先修课要求包括:至少离散数学、数据结构和算法、概率论和统计、基础的编程能力;建议NLP或语言学导论、机器学习、形式语言和自动机理论。满足最低要求但不够建议要求的,可能被有条件录取,入学后正式开始硕士项目前需要补足以上课程。
申请材料包括TOEFL(最低100)或IELTS(最低7.5),成绩单(GPA最低3.0,建议3.2+),简历,文书和三封推荐信。申请2022年秋季入学的学生无需提交GRE。
Brandeis University - Master of Science in Computational Linguistics
Brandeis的计算语言学硕士项目历时两年。第一年的课程主要是帮助学生奠定计算机科学和语言学基础(Syntactic Theory, Formal Semantics, Mathematical Methods for Computational Linguistics,初阶和高阶编程, Data Structures and the Fundamentals of Computing, NLP等),第二年是更高阶的计算语言学课程(Information Extraction, Natural Language Annotation for Machine Learning等)。同时学生一般会参加半年到一年的实习、科研项目或论文项目。
申请者的专业背景建议是语言学、计算机科学、数学或相关专业。其他专业的学生如果申请,建议至少有一门本科基础编程(Python)和离散数学。没有语言学背景的学生可以申请,如果被录取,需要在第一学期补足基础课。
申请时需要提交GRE(可选择性提交),TOEFL(最低100)、IELTS(最低7)、PTE(最低68)或Duolingo(最低120),成绩单、两封推荐信、简历、文书。
Syracuse University - Computational Linguistics, MS
Syracuse的计算语言学硕士项目要求学生修满36个学分,其中包括3到6个学分的实习项目。课程部分包括9门必修课:5门语言学课程(Introductory Linguistic Analysis, Semantics of Human Language, Syntactic Analysis, Morphological Analysis, 和 Advanced Syntax),两门计算机科学课程 (Explorations in Computing and Programming 和Algorithms for Computational Journalism and Linguistics), 和两门信息学课程 (Basics of Information Retrieval Systems 和 Natural Language Processing) ;选修课学生可根据自己的兴趣从Artificial Intelligence, Machine Learning, Data Analytics, Logic and Language等多个领域选择。
申请材料包括:GRE,TOEFL(最低93)或IELTS,成绩单,简历,文书和三封推荐信。
Indiana University Bloomington - Computational Linguistics M.S.
Indiana的计算语言学硕士项目要求学生至少修满33个学分。必修课包括Computation & Linguistic Analysis, Advanced NLP, Applying Machine Learning Techniques in Computational Linguistics, Alternative Syntactic Theories等,同时学生需要从morphology-syntax和morphology-phonology两个细分领域中选择一个完成相应的两门课程。选修课两门,可从多门计算机科学、语言学、信息学、认知科学等课程中选择。
先修课要求至少两门语言学课程,一门统计,和编程基础。鼓励本科专业是计算机科学、语言学或认知科学的学生申请。
申请需要提交GRE,TOEFL(最低92)或IELTS(最低7.0),成绩单,简历,文书和三封推荐信。
除了这个MS项目,Indiana还提供一个MA项目(Master of Arts in Linguistics with a Concentration in Computational Linguistics)。
University of Buffalo - Master of Science in Computational Linguistics
Buffalo的计算语言学硕士项目是语言学院和计算机科学与工程学院联合开办的。项目要求学生修满36个学分。其中包括语言学必修课五门(Phonetics, Syntax, 和Semantics),计算机科学必修课五门(CS Intro, Information Retrieval, Machine Learning, 和Computational Linguistics)和选修课,以及毕业项目。
目前这个学位有8位学生。学校为学生提供了丰富的实习资源,比如National Launguage Understanding Laboratory, Comcast的Applied AI实验组的暑期实习,以及学校官网上列出的实习机会等。
申请材料包括:TOEFL(最低79)、IELTS(最低6.5)、PTE(最低55)或Duolingo(最低120)成绩单,文书,简历,两到三封推荐信,和写作样本(强烈建议提交)。无需提交GRE。
对于申请者的专业背景,学校建议语言学、计算机科学或数学。
University of Colorado Boulder - Computational Linguistics (CLASIC) MS
CU Boulder的这个项目全称是Computational Linguistics, Analytics, Search and Informatics Professional Master’s Degree (CLASIC),由语言学和计算机科学两个学院联合开设,和任职于两个学院的Martha Palmer教授在2016年主导成立的。项目要求学生完成32个学分(两年),其中包括一个毕业项目和/或实习(两个学分)。课程设置是比较灵活的,核心课程有8门,其中包括3门语言学课程(Phonetics, Morphology and Syntax, 或Semantics and Pragmatics等),两门计算机科学课程(学生可从多门课程中根据自己的需要和兴趣选择,比如Design and Analysis of Algorithms, Object-Oriented Analysis and Design, Datacenter Scale Computing等),和三门CLASIC课程(Natural Language Processing, Computational Lexical Semantics和Computational Phonology and Morphology);选修课两门,可从多个CLASIC课程中选择,比如Machine Learning, Data Mining, Computational Corpus Linguistics, Modal Logic等。
申请者的本科专业建议是计算机科学、语言学、数学或其他相关理科专业。先修课包括3学期的微积分,高阶概率论和统计,语言学导论,和编程。同时还鼓励学生修过CS课程(Data Structures, Programming Languages 和 Algorithms),和附加一门语言学课程(morphology/syntax, semantics, 或 formal semantics)。不满足先修课的同学可以通过网络课程(比如Coursera,Edx平台)补足。
申请时需要提交的材料包括GRE,TOEFL(最低83)或IELTS(最低6.0),成绩单(GPA最低3.0),简历,文书和三封推荐信。
以上就是我们为大家找到的11个美国的自然语言处理硕士项目,希望对那些对这类学位感兴趣的学生有帮助。除了这些硕士项目,有些学校还提供纯线上的硕士项目,比如Columbia。