判断一段文本是什么语言
需求
最近从网上抓取大量文本,有中文,英文,日文等多语言,现在只想保留中文的文本。英文的好办啊,字母表过滤就好。一开始的想法是找出unicode字符集中中文对应的范围即可,发现只能找到CJK字符集,包含中日韩等字符。
langid.py - 基于机器学习模型的语言检测
Github 地址
|
|
使用
|
|
原理
1) 模型
符合多项分布的朴素贝叶斯模型
细节推导日后再补
2) 特征工程
这一块比较重要。貌似是n-gram加上infromation gain来做特征选择等一些trick,日后再补。
参考文献
原repo中的几篇论文, 语言检测这个task以后有空可以做个survey。