Python机器学习库整合介绍 粤嵌培训学习推荐

更新时间: 2019-03-07 16:14:35来源: Python培训浏览量:4936

  不论我们用的是什么编程语言,使用正确的工具,我们可以工作得更高效,生产率更高。因此了解正确的工具,在我们的工作领域是很重要的。对于Python语言来说,Python可用的有用的Python机器学习工具和库。其中包括:

  Scikit-Learn

  Scikit Learn是在CB Insights选用的Python机器学习工具。可以用它进行分类、特征选择、特征提取和聚集。它拥有易用的一致性API,并提供了很多开箱可用的求值、诊断和交叉验证方法。同时它底层使用Scipy数据结构,与Python中其余使用Scipy、Numpy、Pandas和Matplotlib进行科学计算的部分适应地很好。

  因此,如果你想可视化分类器的性能,比如,使用精确率与反馈率图表或接收者操作特征曲线,Matplotlib可以帮助进行快速可视化。考虑到花在清理和构造数据的时间,使用这个库会非常方便,因为它可以紧密集成到其他科学计算包上。另外,它还包含有限的自然语言处理特征提取能力以及词袋、tfidf算法、预处理。此外,如果你想快速对小数据集进行不同基准测试的话,它自带的数据集模块提供了常见和有用的数据集。你还可以根据这些数据集创建自己的小数据集,这样在将模型应用到真实世界中之前,你可以按照自己的目的来检验模型是否符合期望。对参数化和参数调整,它也提供了网格搜索和随机搜索。

  Statsmodels

  Statsmodels是另一个聚焦在统计模型上的强大的库,主要用于预测性和探索性分析。如果你想拟合线性模型、进行统计分析或者预测性建模,那么Statsmodels非常适合。它提供的统计测试相当全面,覆盖了大部分情况的验证任务。如果你是R或者S的用户,它也提供了某些统计模型的R语法。它的模型同时也接受Numpy数组和Pandas数据帧,让中间数据结构成为过去!

  PyMC

  PyMC是做贝叶斯曲线的工具。它包含贝叶斯模型、统计分布和模型收敛的诊断工具,也包含一些层次模型。如果想进行贝叶斯分析,你应该看看。

  Shogun

  Shogun是个聚焦在支持向量机上的机器学习工具箱,用C++编写。它正处于积极开发和维护中,提供了Python接口,也是文档化的接口。但是,相对于Scikit-learn,我们发现它的API比较难用。而且,也没提供很多开箱可用的诊断和求值算法。但是,速度是个很大的优势。

  Gensim

  Gensim被定义为“人们的主题建模工具(topic modeling for humans)”。它的主页上描述,其焦点是狄利克雷划分及变体。不同于其他包,它支持自然语言处理,能将NLP和其他机器学习算法更容易组合在一起。如果你的领域在NLP,并想进行聚集和基本的分类,你可以看看。

  Orange

  Orange对分类、聚集和特征选择方法而言,它是相当全面的,还有些交叉验证的方法。在某些方面比Scikit-learn还要好,但与其他科学计算系统的适配上比不上Scikit-learn。但是,包含GUI是个很重要的优势。你可以可视化交叉验证的结果、模型和特征选择方法,某些功能需要安装Graphviz。对大多数算法,Orange都有自己的数据结构,所以你需要将数据包装成Orange兼容的数据结构,这使得其学习曲线更陡。

  PyMVPA

  PyMVPA是另一个统计学习库,API上与Scikit-learn很像。包含交叉验证和诊断工具,但是没有Scikit-learn全面。

  清楚Python机器学习库有哪些,该怎么学习呢?粤嵌Python培训推出的人工智能+Python课程强化了算法和编程思想,进一步优化了使用Python高效进行web全栈开发的内容。


免费预约试听课