java.lang.Object

org.craftercms.search.opensearch.impl.AbstractDocumentParser

org.craftercms.search.opensearch.impl.tika.TikaDocumentParser

All Implemented Interfaces:: DocumentParser

public class TikaDocumentParser extends AbstractDocumentParser

Implementation of DocumentParser that uses Apache Tika

Author:: joseross

Field Summary

Fields

Modifier and Type

Field

Description

protected int

charLimit

The maximum number of characters to parse from the document.

protected final jakarta.activation.FileTypeMap

fileTypeMap

protected final List<MetadataExtractor<org.apache.tika.metadata.Metadata>>

metadataExtractors

List of metadata extractors to apply after parsing documents

protected com.fasterxml.jackson.databind.ObjectMapper

objectMapper

Jackson ObjectMapper instance

protected org.apache.tika.Tika

tika

Apache Tika instance

Fields inherited from class org.craftercms.search.opensearch.impl.AbstractDocumentParser
fieldNameAuthor, fieldNameContent, fieldNameContentType, fieldNameCreated, fieldNameDescription, fieldNameKeywords, fieldNameModified, fieldNAmeTitle
Constructor Summary

Constructors

Constructor

Description

TikaDocumentParser(List<MetadataExtractor<org.apache.tika.metadata.Metadata>> metadataExtractors)
Method Summary

Modifier and Type

Method

Description

protected String

extractMetadata(String filename, org.springframework.core.io.Resource resource, String parsedContent, org.apache.tika.metadata.Metadata metadata, Map<String,Object> additionalFields)

Prepares the document to be indexed

String

parseToXml(String filename, org.springframework.core.io.Resource resource, Map<String,Object> additionalFields)

Parses the given document and generates an XML file

void

setCharLimit(int charLimit)

void

setObjectMapper(com.fasterxml.jackson.databind.ObjectMapper objectMapper)

void

setTika(org.apache.tika.Tika tika)

Methods inherited from class org.craftercms.search.opensearch.impl.AbstractDocumentParser
setFieldNameAuthor, setFieldNameContent, setFieldNameContentType, setFieldNameCreated, setFieldNameDescription, setFieldNameKeywords, setFieldNameModified, setFieldNAmeTitle

Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

Field Details
- charLimit
  
  protected int charLimit
  
  The maximum number of characters to parse from the document. Defaults to 0 to parse only metadata.
- objectMapper
  
  protected com.fasterxml.jackson.databind.ObjectMapper objectMapper
  
  Jackson ObjectMapper instance
- metadataExtractors
  
  protected final List<MetadataExtractor<org.apache.tika.metadata.Metadata>> metadataExtractors
  
  List of metadata extractors to apply after parsing documents
- tika
  
  protected org.apache.tika.Tika tika
  
  Apache Tika instance
- fileTypeMap
  
  protected final jakarta.activation.FileTypeMap fileTypeMap
Constructor Details
- TikaDocumentParser
  
  public TikaDocumentParser(List<MetadataExtractor<org.apache.tika.metadata.Metadata>> metadataExtractors)
Method Details
- setCharLimit
  
  public void setCharLimit(int charLimit)
- setObjectMapper
  
  public void setObjectMapper(com.fasterxml.jackson.databind.ObjectMapper objectMapper)
- setTika
  
  public void setTika(org.apache.tika.Tika tika)
- parseToXml
  
  public String parseToXml(String filename, org.springframework.core.io.Resource resource, Map<String,Object> additionalFields)
  
  Parses the given document and generates an XML file
  
  Parameters:
  
  filename - the name of the file
  
  resource - the document to parse
  
  additionalFields - additional fields to add
  
  Returns:
  
  an XML ready to be indexed
- extractMetadata
  
  protected String extractMetadata(String filename, org.springframework.core.io.Resource resource, String parsedContent, org.apache.tika.metadata.Metadata metadata, Map<String,Object> additionalFields)
  
  Prepares the document to be indexed
  
  Parameters:
  
  resource - the content of the parsed file
  
  metadata - the metadata of the parsed file
  
  additionalFields - additional fields to be added
  
  Returns:
  
  the XML ready to be indexed

Class TikaDocumentParser

Field Summary

Fields inherited from class org.craftercms.search.opensearch.impl.AbstractDocumentParser

Constructor Summary

Method Summary

Methods inherited from class org.craftercms.search.opensearch.impl.AbstractDocumentParser

Methods inherited from class java.lang.Object

Field Details

charLimit

objectMapper

metadataExtractors

tika

fileTypeMap

Constructor Details

TikaDocumentParser

Method Details

setCharLimit

setObjectMapper

setTika

parseToXml

extractMetadata