基于fasttext算法的文本分类设计与实现(Python)

基于fasttext算法的文本分类设计与实现(Python)(外文翻译,论文说明书12000字,Python程序)
摘要:acebook的Tomas Mikolov开源了fasttext算法,引发了从业人员的大量关注。在较大数据集的处理上,Fasttext算法的处理速度实在是太快了,它是一种非常简单但是效率非常高的文本分类和词向量学习的方法,但是性能非常好,甚至能比得上深度学习。本文将对fasttext算法进行具体的学习,理解它的模型架构,并具体实现fasttext算法的文本分类。在最后,将具体的介绍一些fasttext算法的应用场景。
关键词:自然语言;快速;文本分类
Design and Implementation of Text Classification Based on Fasttext Algorithm
Chaitongqing
School of Computer and Software,NUIST,Nanjing 210044,China
Abstract:In mid-to-late 2016, Facebook's Tomas Mikolov, the open source fastfast algorithm, caused an uproar in the industry. Fasttext algorithm is very fast in processing large data sets. It provides a simple and efficient method for text classification and characterization learning. The performance is faster than shoulder deep learning. This article will specifically study the fasttext algorithm, understand its model architecture, and implement the text classification of the fasttext algorithm. In the end, the application of fasttext algorithm will be introduced in detail. [资料来源:www.doc163.com]
Key words:Natural Language; Fast; Text Classification
本次实验使用的环境是python3.5[15]。关于python,它是一种将解释性、编译性、互动性和面向对象集为一体,同时层次也很高的脚本语言。与此同时,因为其他的各种语言常常用英文关键字和标点符号,与这些相比,python更加有语言特色结构,所以,它具有很强的可读性。
在搭建fasttext模型时,在这里借鉴了托马斯大牛开源的模型,同时对他的模型进行了一些改动,来适合本次实验。
环境:JetBrains PyCharm Community Edition [来源:http://www.doc163.com]
[资料来源:http://www.doc163.com]




目录
1 绪论 1
1.1研究背景与意义 1
[来源:http://Doc163.com]
1.2研究内容 1
2 Word2vec算法 2
2.1word2vec的产生及意义 2
2.2word2vec的模型架构 3
2.2.1Skip-Gram模型 3
2.2.2CBOW模型 3
2.3 CBOW模型 5
2.3.1模型架构 5
2.3.2前向传播 6
2.3.3反向传播学习权重矩阵 6
2.4本章小结 7
3 Fasttext思想 8
3.1预备知识 8
3.1.1BOW模型 8
3.1.2霍夫曼树数据结构 8
3.1.3Huffman编码 11
3.2fasttext算法 12
3.2.1 fasttext模型架构 12
3.2.2分层softmax 14
3.2.3N-gram特征 15
3.3本章小结 16
4Fasttext算法实现 16
4.1实验环境介绍及模型搭建 16
4.2实验过程 17
4.2.1处理文本数据 17
4.2.2利用fasttext进行分类 17
4.3实验结果及分析 18
4.4本章小结 19
5总结与展望 20
5.1总结 20
5.2展望 20
参考文献 20
致谢 22
上一篇:基于OpenCV的目标跟踪算法研究(Python程序)
下一篇:没有了