Tika教程

Apache Tika 是什么?

Appache Tika

为什么用Tika?

据filext.com网站统计,大约有1.5万至51K的内容类型,并且这个数字还在与日俱增。数据被存储在不同的格式,如文本文档,excel表格,PDF,图像和多媒体文件,仅举几例。因此,应用程序如搜索引擎和内容管理系统需要从这些文档类型容易提取数据的额外的支持。Apache Tika 通过提供一个通用的API来检测并提取多种文件格式的数据服务达到这一目的。

Apache Tika 应用

有各种各样的应用程序使用Apache Tika。在这里,我们将讨论严重依赖Apache Tika几个突出的应用。

搜索引擎

开发搜索引擎索引的数字文档的文本内容使Tika被广泛使用。

Search Engine

文档分析

数字资产管理

内容分析

历史

年份 开发
2006 Tika的想法是在Lucene项目管理委员会之前设计的。
2006 Tika及其在Jackrabbit项目有用的概念进行了讨论。
2007 Tika进入Apache孵化器。
2008 版本0.1和0.2发布,Tika从孵化器到Lucene子项目独立。
2009 版本0.3,0.4,和0.5发布。
2010 版本0.6和0.7发布,Tika进入Apache的顶级项目。
2011 Tika1.0发布,并Tika的书籍“Tika in Action”也在同一年被发布。