你好，书中提供的百度网盘地址不能下载软件包了，能不能从邮箱给我呀,先谢谢。233066274@qq.com

czh发表于 2020/5/10 19:51:22
百度分享文件取消了

皮皮瞎发表于 2019/5/29 16:34:40
作者您好，我在这本书的8.4.1节看到了很多语料库的网址，但是很多已经打不开了，请问您可以分享一下开源的语料库吗？想学习机器翻译相关，但是手里没有充足的语料库。如果可以的话，我的邮箱5625060@qq.com

阿水1994发表于 2018/9/18 16:01:35
- 好的，我邮箱联系您
  
  伏草惟存发表于 2018/9/21 9:31:10
能不能提供第十四章的示例，命名实体的识别

vice发表于 2018/8/31 9:38:38
- 关注我个人博客，同步更新。
  
  伏草惟存发表于 2018/9/3 9:13:53
本书源码下载：https://github.com/BaiNingchao/NLP-ML
请仔细看下第10/15/7/8章源码，皆封装好的。
通常在做文本挖掘建模的时候需要对文本进行预处理，其中几个主要的步骤如下:
```
1. 高效的读取文本文件（保证内存不溢出）
2. 处理文本的HTML标签、特殊符号（如微博文本）
3. 分词去停用词
4. 特征词选取并转换成文本特征向量
5. 自定义规则提取特征词
```
伏草惟存发表于 2018/7/24 15:13:55