大数据挖掘是伴随者互联网的普及应用和传统信息检索技术的不足提出并发展起来的。大数据挖掘是从大数据中发现有用的模式(其中的数据可以存放在数据库、数据仓库或其他信息库中),它旨在解决数据挖掘、信息检索、知识抽取以及更广泛的商业问题。面向大数据的挖掘比面向数据库和数据仓库的数据挖掘要复杂,因为大数据往往是无结构的,通常是用长的句子或短语来表达文档类信息;有些则可能是半结构化的,当然也包括大量的异构信息、冗余信息等,对诸如广告、导航条、动画等无关信息的甄别与处理也都是需要考虑的问题。 大数据挖掘也是一个交叉学科,它涉及信息检索(信息检索可以看成是大数据挖掘的初级阶段)、人工智能、机器学习、概率论以及数据库等。在大数据搜索和检索中,常常需要对结果进行处理和内容挖掘。应用数据分析与挖掘方法,可以帮助人们从海量网络信息中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。由于大数据的海量、冗余、异构等复杂特点,给传统的数据挖掘技术提出了很多亟待解决的难题。 作为大数据挖掘领域中的一个重要研究分支,文本挖掘与处理主要研究从非结构化及半结构化的海量Web文本信息中挖掘有价值的信息,处理其中可能隐藏着的概念及其联系,并完成可能的知识发现。 文本挖掘与处理的主要对象是自然语言。自然语言的多样性和复杂性决定了计算机往往很难实现对自然语言的完全理解。 在语言的深层挖掘上,目前的语言学研究和计算语言学研究尚不能充分地理解语言的内在含义,而精细语言分析也往往并不能充分解决复杂的现实问题。因此,浅层语言分析可能是目前可行的一条研究路线。一方面,它能够针对需求抽取语言表层之下特定的关键信息;另外一方面,它兼顾了分析结果的准确性和系统的实用性。 灵玖NLPIR文本挖掘与处理技术也多是以某种浅层语言分析技术分析以自然语言表示的文本信息,从中挖掘出诸如新特征词、有意义串、关键词等,并在此基础上完成对文本信息的信息抽取、分类、聚类、检索、话题跟踪等处理工作。在对以自然语言表示的文本进行挖掘与处理时,要使用自然语言理解与处理、信息检索的相关技术。计算机需要对自然语言表达的内在内容进行建模,转化为可计算的数据结构,尽可能地进行表层的理解并进一步提取其深层的语义信息。但自然语言的较端复杂性也给利用计算机来完成这种处理工作带来较大的困难。
灵玖中科软件(北京)有限公司专注于大数据开发,大数据搜索与挖掘,大数据中文分词等