diff --git a/tika-core/src/main/java/org/apache/tika/language/LanguageIdentifier.java b/tika-core/src/main/java/org/apache/tika/language/LanguageIdentifier.java
new file mode 100644
index 0000000000..f6f156c098
--- /dev/null
+++ b/tika-core/src/main/java/org/apache/tika/language/LanguageIdentifier.java
@@ -0,0 +1,241 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+import static java.nio.charset.StandardCharsets.UTF_8;
+
+import java.io.BufferedReader;
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.InputStreamReader;
+import java.util.HashMap;
+import java.util.Map;
+import java.util.Properties;
+import java.util.Set;
+
+/**
+ * Identifier of the language that best matches a given content profile.
+ * The content profile is compared to generic language profiles based on
+ * material from various sources.
+ * @since Apache Tika 0.5
+ * @see
+ * Europarl: A Parallel Corpus for Statistical Machine Translation
+ * @see
+ * ISO 639 Language Codes
+ * @deprecated use a concrete class of {@link org.apache.tika.language.detect.LanguageDetector}
+ */
+@Deprecated
+public class LanguageIdentifier {
+
+ /**
+ * The available language profiles.
+ */
+ private static final Map PROFILES =
+ new HashMap();
+ private static final String PROFILE_SUFFIX = ".ngp";
+
+ private static Properties props = new Properties();
+ private static String errors = "";
+
+ private static final String PROPERTIES_OVERRIDE_FILE = "tika.language.override.properties";
+ private static final String PROPERTIES_FILE = "tika.language.properties";
+ private static final String LANGUAGES_KEY = "languages";
+ private static final double CERTAINTY_LIMIT = 0.022;
+
+ private final String language;
+
+ private final double distance;
+
+ /*
+ * Always attempt initializing language profiles when class is loaded first time
+ */
+ static {
+ initProfiles();
+ }
+
+ /*
+ * Add one language profile based on config in property file
+ */
+ private static void addProfile(String language) throws Exception {
+ try {
+ LanguageProfile profile = new LanguageProfile();
+
+ try (InputStream stream =
+ LanguageIdentifier.class.getResourceAsStream(
+ language + PROFILE_SUFFIX)) {
+ BufferedReader reader =
+ new BufferedReader(new InputStreamReader(stream, UTF_8));
+ String line = reader.readLine();
+ while (line != null) {
+ if (line.length() > 0 && !line.startsWith("#")) {
+ int space = line.indexOf(' ');
+ profile.add(
+ line.substring(0, space),
+ Long.parseLong(line.substring(space + 1)));
+ }
+ line = reader.readLine();
+ }
+ }
+
+ addProfile(language, profile);
+ } catch (Throwable t) {
+ throw new Exception("Failed trying to load language profile for language \""+language+"\". Error: "+t.getMessage());
+ }
+ }
+
+ /**
+ * Adds a single language profile
+ * @param language an ISO 639 code representing language
+ * @param profile the language profile
+ */
+ public static void addProfile(String language, LanguageProfile profile) {
+ PROFILES.put(language, profile);
+ }
+
+ /**
+ * Constructs a language identifier based on a LanguageProfile
+ * @param profile the language profile
+ */
+ public LanguageIdentifier(LanguageProfile profile) {
+ String minLanguage = "unknown";
+ double minDistance = 1.0;
+ for (Map.Entry entry : PROFILES.entrySet()) {
+ double distance = profile.distance(entry.getValue());
+ if (distance < minDistance) {
+ minDistance = distance;
+ minLanguage = entry.getKey();
+ }
+ }
+
+ this.language = minLanguage;
+ this.distance = minDistance;
+ }
+
+ /**
+ * Constructs a language identifier based on a String of text content
+ * @param content the text
+ */
+ public LanguageIdentifier(String content) {
+ this(new LanguageProfile(content));
+ }
+
+ /**
+ * Gets the identified language
+ * @return an ISO 639 code representing the detected language
+ */
+ public String getLanguage() {
+ return language;
+ }
+
+ /**
+ * Tries to judge whether the identification is certain enough
+ * to be trusted.
+ * WARNING: Will never return true for small amount of input texts.
+ * @return true
if the distance is smaller then {@value #CERTAINTY_LIMIT}, false
otherwise
+ */
+ public boolean isReasonablyCertain() {
+ return distance < CERTAINTY_LIMIT;
+ }
+
+ /**
+ * Builds the language profiles.
+ * The list of languages are fetched from a property file named "tika.language.properties"
+ * If a file called "tika.language.override.properties" is found on classpath, this is used instead
+ * The property file contains a key "languages" with values being comma-separated language codes
+ */
+ public static void initProfiles() {
+ clearProfiles();
+
+ errors = "";
+ InputStream stream;
+ stream = LanguageIdentifier.class.getResourceAsStream(PROPERTIES_OVERRIDE_FILE);
+ if(stream == null) {
+ stream = LanguageIdentifier.class.getResourceAsStream(PROPERTIES_FILE);
+ }
+
+ if(stream != null){
+ try {
+ props = new Properties();
+ props.load(stream);
+ } catch (IOException e) {
+ errors += "IOException while trying to load property file. Message: " + e.getMessage() + "\n";
+ }
+ }
+
+ String[] languages = props.getProperty(LANGUAGES_KEY).split(",");
+ for(String language : languages) {
+ language = language.trim();
+ String name = props.getProperty("name."+language, "Unknown");
+ try {
+ addProfile(language);
+ } catch (Exception e) {
+ errors += "Language " + language + " (" + name + ") not initialized. Message: " + e.getMessage() + "\n";
+ }
+ }
+ }
+
+ /**
+ * Initializes the language profiles from a user supplied initialized Map.
+ * This overrides the default set of profiles initialized at startup,
+ * and provides an alternative to configuring profiles through property file
+ *
+ * @param profilesMap map of language profiles
+ */
+ public static void initProfiles(Map profilesMap) {
+ clearProfiles();
+ for(Map.Entry entry : profilesMap.entrySet()) {
+ addProfile(entry.getKey(), entry.getValue());
+ }
+ }
+
+ /**
+ * Clears the current map of language profiles
+ */
+ public static void clearProfiles() {
+ PROFILES.clear();
+ }
+
+ /**
+ * Tests whether there were errors initializing language config
+ * @return true if there are errors. Use getErrors() to retrieve.
+ */
+ public static boolean hasErrors() {
+ return errors != "";
+ }
+
+ /**
+ * Returns a string of error messages related to initializing langauge profiles
+ * @return the String containing the error messages
+ */
+ public static String getErrors() {
+ return errors;
+ }
+
+ /**
+ * Returns what languages are supported for language identification
+ * @return A set of Strings being the ISO 639 language codes
+ */
+ public static Set getSupportedLanguages() {
+ return PROFILES.keySet();
+ }
+
+ @Override
+ public String toString() {
+ return language + " (" + distance + ")";
+ }
+
+}
diff --git a/tika-core/src/main/java/org/apache/tika/language/LanguageProfile.java b/tika-core/src/main/java/org/apache/tika/language/LanguageProfile.java
new file mode 100644
index 0000000000..477976fe18
--- /dev/null
+++ b/tika-core/src/main/java/org/apache/tika/language/LanguageProfile.java
@@ -0,0 +1,316 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+
+import java.util.HashMap;
+import java.util.HashSet;
+import java.util.Map;
+import java.util.Set;
+import java.util.List;
+import java.util.ArrayList;
+import java.util.Collections;
+import java.util.Comparator;
+
+/**
+ * Language profile based on ngram counts.
+ *
+ * @since Apache Tika 0.5
+ * @deprecated
+ */
+@Deprecated
+public class LanguageProfile {
+
+ public static final int DEFAULT_NGRAM_LENGTH = 3;
+
+ private final int length;
+
+ /**
+ * The ngrams that make up this profile.
+ */
+ private final Map ngrams =
+ new HashMap();
+
+ /**
+ * Sorted ngram cache for faster distance calculation.
+ */
+ private Interleaved interleaved = new Interleaved();
+ public static boolean useInterleaved = true; // For testing purposes
+
+ /**
+ * The sum of all ngram counts in this profile.
+ * Used to calculate relative ngram frequency.
+ */
+ private long count = 0;
+
+ private static class Counter {
+ private long count = 0;
+ public String toString() {
+ return Long.toString(count);
+ }
+ }
+
+ public LanguageProfile(int length) {
+ this.length = length;
+ }
+
+ public LanguageProfile() {
+ this(DEFAULT_NGRAM_LENGTH);
+ }
+
+ public LanguageProfile(String content, int length) {
+ this(length);
+
+ ProfilingWriter writer = new ProfilingWriter(this);
+ char[] ch = content.toCharArray();
+ writer.write(ch, 0, ch.length);
+ }
+
+ public LanguageProfile(String content) {
+ this(content, DEFAULT_NGRAM_LENGTH);
+ }
+
+ public long getCount() {
+ return count;
+ }
+
+ public long getCount(String ngram) {
+ Counter counter = ngrams.get(ngram);
+ if (counter != null) {
+ return counter.count;
+ } else {
+ return 0;
+ }
+ }
+
+ /**
+ * Adds a single occurrence of the given ngram to this profile.
+ *
+ * @param ngram the ngram
+ */
+ public void add(String ngram) {
+ add(ngram, 1);
+ }
+
+ /**
+ * Adds multiple occurrences of the given ngram to this profile.
+ *
+ * @param ngram the ngram
+ * @param count number of occurrences to add
+ */
+ public void add(String ngram, long count) {
+ if (length != ngram.length()) {
+ throw new IllegalArgumentException(
+ "Unable to add an ngram of incorrect length: "
+ + ngram.length() + " != " + length);
+ }
+
+ Counter counter = ngrams.get(ngram);
+ if (counter == null) {
+ counter = new Counter();
+ ngrams.put(ngram, counter);
+ }
+ counter.count += count;
+ this.count += count;
+ }
+
+ /**
+ * Calculates the geometric distance between this and the given
+ * other language profile.
+ *
+ * @param that the other language profile
+ * @return distance between the profiles
+ */
+ public double distance(LanguageProfile that) {
+ return useInterleaved ? distanceInterleaved(that) : distanceStandard(that);
+ }
+
+ private double distanceStandard(LanguageProfile that) {
+ if (length != that.length) {
+ throw new IllegalArgumentException(
+ "Unable to calculage distance of language profiles"
+ + " with different ngram lengths: "
+ + that.length + " != " + length);
+ }
+
+ double sumOfSquares = 0.0;
+ double thisCount = Math.max(this.count, 1.0);
+ double thatCount = Math.max(that.count, 1.0);
+
+ Set ngrams = new HashSet();
+ ngrams.addAll(this.ngrams.keySet());
+ ngrams.addAll(that.ngrams.keySet());
+ for (String ngram : ngrams) {
+ double thisFrequency = this.getCount(ngram) / thisCount;
+ double thatFrequency = that.getCount(ngram) / thatCount;
+ double difference = thisFrequency - thatFrequency;
+ sumOfSquares += difference * difference;
+ }
+
+ return Math.sqrt(sumOfSquares);
+ }
+
+ @Override
+ public String toString() {
+ return ngrams.toString();
+ }
+
+ /* Code for interleaved distance calculation below */
+
+ private double distanceInterleaved(LanguageProfile that) {
+ if (length != that.length) {
+ throw new IllegalArgumentException(
+ "Unable to calculage distance of language profiles"
+ + " with different ngram lengths: "
+ + that.length + " != " + length);
+ }
+
+ double sumOfSquares = 0.0;
+ double thisCount = Math.max(this.count, 1.0);
+ double thatCount = Math.max(that.count, 1.0);
+
+ Interleaved.Entry thisEntry = updateInterleaved().firstEntry();
+ Interleaved.Entry thatEntry = that.updateInterleaved().firstEntry();
+
+ // Iterate the lists in parallel, until both lists has been depleted
+ while (thisEntry.hasNgram() || thatEntry.hasNgram()) {
+ if (!thisEntry.hasNgram()) { // Depleted this
+ sumOfSquares += square(thatEntry.count / thatCount);
+ thatEntry.next();
+ continue;
+ }
+
+ if (!thatEntry.hasNgram()) { // Depleted that
+ sumOfSquares += square(thisEntry.count / thisCount);
+ thisEntry.next();
+ continue;
+ }
+
+ final int compare = thisEntry.compareTo(thatEntry);
+
+ if (compare == 0) { // Term exists both in this and that
+ double difference = thisEntry.count/thisCount - thatEntry.count/thatCount;
+ sumOfSquares += square(difference);
+ thisEntry.next();
+ thatEntry.next();
+ } else if (compare < 0) { // Term exists only in this
+ sumOfSquares += square(thisEntry.count/thisCount);
+ thisEntry.next();
+ } else { // Term exists only in that
+ sumOfSquares += square(thatEntry.count/thatCount);
+ thatEntry.next();
+ }
+ }
+ return Math.sqrt(sumOfSquares);
+ }
+ private double square(double count) {
+ return count * count;
+ }
+
+ private class Interleaved {
+
+ private char[] entries = null; // *
+ private int size = 0; // Number of entries (one entry = length+2 chars)
+ private long entriesGeneratedAtCount = -1; // Keeps track of when the sequential structure was current
+
+ /**
+ * Ensure that the entries array is in sync with the ngrams.
+ */
+ public void update() {
+ if (count == entriesGeneratedAtCount) { // Already up to date
+ return;
+ }
+ size = ngrams.size();
+ final int numChars = (length+2)*size;
+ if (entries == null || entries.length < numChars) {
+ entries = new char[numChars];
+ }
+ int pos = 0;
+ for (Map.Entry entry: getSortedNgrams()) {
+ for (int l = 0 ; l < length ; l++) {
+ entries[pos + l] = entry.getKey().charAt(l);
+ }
+ entries[pos + length] = (char)(entry.getValue().count / 65536); // Upper 16 bit
+ entries[pos + length + 1] = (char)(entry.getValue().count % 65536); // lower 16 bit
+ pos += length + 2;
+ }
+ entriesGeneratedAtCount = count;
+ }
+
+ public Entry firstEntry() {
+ Entry entry = new Entry();
+ if (size > 0) {
+ entry.update(0);
+ }
+ return entry;
+ }
+
+ private List> getSortedNgrams() {
+ List> entries = new ArrayList>(ngrams.size());
+ entries.addAll(ngrams.entrySet());
+ Collections.sort(entries, new Comparator>() {
+ @Override
+ public int compare(Map.Entry o1, Map.Entry o2) {
+ return o1.getKey().compareTo(o2.getKey());
+ }
+ });
+ return entries;
+ }
+
+ private class Entry implements Comparable {
+ char[] ngram = new char[length];
+ int count = 0;
+ int pos = 0;
+
+ private void update(int pos) {
+ this.pos = pos;
+ if (pos >= size) { // Reached the end
+ return;
+ }
+ final int origo = pos*(length+2);
+ System.arraycopy(entries, origo, ngram, 0, length);
+ count = entries[origo+length] * 65536 + entries[origo+length+1];
+ }
+
+ @Override
+ public int compareTo(Entry other) {
+ for (int i = 0 ; i < ngram.length ; i++) {
+ if (ngram[i] != other.ngram[i]) {
+ return ngram[i] - other.ngram[i];
+ }
+ }
+ return 0;
+ }
+ public boolean hasNext() {
+ return pos < size-1;
+ }
+ public boolean hasNgram() {
+ return pos < size;
+ }
+ public void next() {
+ update(pos+1);
+ }
+ public String toString() {
+ return new String(ngram) + "(" + count + ")";
+ }
+ }
+ }
+ private Interleaved updateInterleaved() {
+ interleaved.update();
+ return interleaved;
+ }
+}
diff --git a/tika-core/src/main/java/org/apache/tika/language/LanguageProfilerBuilder.java b/tika-core/src/main/java/org/apache/tika/language/LanguageProfilerBuilder.java
new file mode 100644
index 0000000000..37e7ed6f33
--- /dev/null
+++ b/tika-core/src/main/java/org/apache/tika/language/LanguageProfilerBuilder.java
@@ -0,0 +1,771 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+// JDK imports
+import static java.nio.charset.StandardCharsets.UTF_8;
+
+import java.io.BufferedInputStream;
+import java.io.BufferedReader;
+import java.io.File;
+import java.io.FileInputStream;
+import java.io.FileOutputStream;
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.InputStreamReader;
+import java.io.OutputStream;
+import java.util.ArrayList;
+import java.util.Collections;
+import java.util.Date;
+import java.util.HashMap;
+import java.util.Iterator;
+import java.util.List;
+import java.util.Map;
+
+import org.apache.tika.exception.TikaException;
+
+/**
+ * This class runs a ngram analysis over submitted text, results might be used
+ * for automatic language identification.
+ *
+ * The similarity calculation is at experimental level. You have been warned.
+ *
+ * Methods are provided to build new NGramProfiles profiles.
+ *
+ * @author Sami Siren
+ * @author Jerome Charron - http://frutch.free.fr/
+ * @deprecated
+ */
+@Deprecated
+public class LanguageProfilerBuilder {
+
+ // public static final Log LOG =
+ // LogFactory.getLog(LanguageProfilerBuilder.class);
+
+ /** The minimum length allowed for a ngram. */
+ final static int ABSOLUTE_MIN_NGRAM_LENGTH = 3; /* was 1 */
+
+ /** The maximum length allowed for a ngram. */
+ final static int ABSOLUTE_MAX_NGRAM_LENGTH = 3; /* was 4 */
+
+ /** The default min length of ngram */
+ final static int DEFAULT_MIN_NGRAM_LENGTH = 3;
+
+ /** The default max length of ngram */
+ final static int DEFAULT_MAX_NGRAM_LENGTH = 3;
+
+ /** The ngram profile file extension */
+ final static String FILE_EXTENSION = "ngp";
+
+ /** The profile max size (number of ngrams of the same size) */
+ final static int MAX_SIZE = 1000;
+
+ /** separator char */
+ final static char SEPARATOR = '_';
+ /** The String form of the separator char */
+ private final static String SEP_CHARSEQ = new String(
+ new char[] { SEPARATOR });
+
+ /** The profile's name */
+ private String name = null;
+
+ /** The NGrams of this profile sorted on the number of occurrences */
+ private List sorted = null;
+
+ /** The min length of ngram */
+ private int minLength = DEFAULT_MIN_NGRAM_LENGTH;
+
+ /** The max length of ngram */
+ private int maxLength = DEFAULT_MAX_NGRAM_LENGTH;
+
+ /** The total number of ngrams occurences */
+ private int[] ngramcounts = null;
+
+ /** An index of the ngrams of the profile */
+ private Map ngrams = null;
+
+ /** A StringBuffer used during analysis */
+ private QuickStringBuffer word = new QuickStringBuffer();
+
+ /**
+ * Constructs a new ngram profile
+ *
+ * @param name is the name of the profile
+ * @param minlen is the min length of ngram sequences
+ * @param maxlen is the max length of ngram sequences
+ */
+ public LanguageProfilerBuilder(String name, int minlen, int maxlen) {
+ // TODO: Compute the initial capacity using minlen and maxlen.
+ this.ngrams = new HashMap(4000);
+ this.minLength = minlen;
+ this.maxLength = maxlen;
+ this.name = name;
+ }
+
+ /**
+ * Constructs a new ngram profile where minlen=3, maxlen=3
+ *
+ * @param name is a name of profile, usually two length string
+ * @since Tika 1.0
+ */
+ public LanguageProfilerBuilder(String name) {
+ this.ngrams = new HashMap(4000);
+ this.minLength = ABSOLUTE_MIN_NGRAM_LENGTH;
+ this.maxLength = ABSOLUTE_MAX_NGRAM_LENGTH;
+ this.name = name;
+ }
+
+ /**
+ * @return Returns the name.
+ */
+ public String getName() {
+ return name;
+ }
+
+ // This method was commented because it depends on org.apache.lucene.analysis.Token
+ // that is not a part of the Tika
+ // /**
+ // * Adds ngrams from a token to this profile
+ // *
+ // * @param t is the Token to be added
+ // */
+ // public void add(Token t) {
+ // add(new StringBuffer().append(SEPARATOR)
+ // .append(t.term())
+ // .append(SEPARATOR));
+ // }
+
+ /**
+ * Adds ngrams from a single word to this profile
+ *
+ * @param word is the word to add
+ */
+ public void add(StringBuffer word) {
+ for (int i = minLength; (i <= maxLength) && (i < word.length()); i++) {
+ add(word, i);
+ }
+ }
+
+ /**
+ * Adds the last NGrams from the specified word.
+ */
+ private void add(QuickStringBuffer word) {
+ int wlen = word.length();
+ if (wlen >= minLength) {
+ int max = Math.min(maxLength, wlen);
+ for (int i = minLength; i <= max; i++) {
+ add(word.subSequence(wlen - i, wlen));
+ }
+ }
+ }
+
+ /**
+ * Adds ngrams from a single word in this profile
+ *
+ * @param cs char sequence to add
+ */
+ private void add(CharSequence cs) {
+
+ if (cs.equals(SEP_CHARSEQ)) {
+ return;
+ }
+ NGramEntry nge = ngrams.get(cs);
+ if (nge == null) {
+ nge = new NGramEntry(cs);
+ ngrams.put(cs, nge);
+ }
+ nge.inc();
+ }
+
+ /**
+ * Analyzes a piece of text
+ *
+ * @param text
+ * the text to be analyzed
+ */
+ public void analyze(StringBuilder text) {
+
+ if (ngrams != null) {
+ ngrams.clear();
+ sorted = null;
+ ngramcounts = null;
+ }
+
+ word.clear().append(SEPARATOR);
+ for (int i = 0; i < text.length(); i++) {
+ char c = Character.toLowerCase(text.charAt(i));
+
+ if (Character.isLetter(c)) {
+ add(word.append(c));
+ } else {
+ // found word boundary
+ if (word.length() > 1) {
+ // we have a word!
+ add(word.append(SEPARATOR));
+ word.clear().append(SEPARATOR);
+ }
+ }
+ }
+
+ if (word.length() > 1) {
+ // we have a word!
+ add(word.append(SEPARATOR));
+ }
+ normalize();
+ }
+
+ /**
+ * @param word
+ * @param n sequence length
+ */
+ private void add(StringBuffer word, int n) {
+ for (int i = 0; i <= word.length() - n; i++) {
+ add(word.subSequence(i, i + n));
+ }
+ }
+
+ /**
+ * Normalizes the profile (calculates the ngrams frequencies)
+ */
+ protected void normalize() {
+ NGramEntry e = null;
+ Iterator i = ngrams.values().iterator();
+
+ // Calculates ngram count if not already done
+ if (ngramcounts == null) {
+ ngramcounts = new int[maxLength + 1];
+ while (i.hasNext()) {
+ e = i.next();
+ ngramcounts[e.size()] += e.count;
+ }
+ }
+
+ i = ngrams.values().iterator();
+ while (i.hasNext()) {
+ e = i.next();
+ e.frequency = (float) e.count / (float) ngramcounts[e.size()];
+ }
+ }
+
+ /**
+ * Returns a sorted list of ngrams (sort done by 1. frequency 2. sequence)
+ *
+ * @return sorted vector of ngrams
+ */
+ public List getSorted() {
+ // make sure sorting is done only once
+ if (sorted == null) {
+ sorted = new ArrayList(ngrams.values());
+ Collections.sort(sorted);
+
+ // trim at NGRAM_LENGTH entries
+ if (sorted.size() > MAX_SIZE) {
+ sorted = sorted.subList(0, MAX_SIZE);
+ }
+ }
+ return sorted;
+ }
+
+ // Inherited JavaDoc
+ public String toString() {
+
+ StringBuffer s = new StringBuffer().append("NGramProfile: ")
+ .append(name).append("\n");
+
+ Iterator i = getSorted().iterator();
+
+ while (i.hasNext()) {
+ NGramEntry entry = i.next();
+ s.append("[").append(entry.seq).append("/").append(entry.count)
+ .append("/").append(entry.frequency).append("]\n");
+ }
+ return s.toString();
+ }
+
+ /**
+ * Calculates a score how well NGramProfiles match each other
+ *
+ * @param another
+ * ngram profile to compare against
+ * @return similarity 0=exact match
+ * @throws TikaException
+ * if could not calculate a score
+ */
+ public float getSimilarity(LanguageProfilerBuilder another)
+ throws TikaException {
+
+ float sum = 0;
+
+ try {
+ Iterator i = another.getSorted().iterator();
+ while (i.hasNext()) {
+ NGramEntry other = i.next();
+ if (ngrams.containsKey(other.seq)) {
+ sum += Math.abs((other.frequency - ngrams.get(other.seq).frequency)) / 2;
+ } else {
+ sum += other.frequency;
+ }
+ }
+ i = getSorted().iterator();
+ while (i.hasNext()) {
+ NGramEntry other = i.next();
+ if (another.ngrams.containsKey(other.seq)) {
+ sum += Math.abs((other.frequency - another.ngrams
+ .get(other.seq).frequency)) / 2;
+ } else {
+ sum += other.frequency;
+ }
+ }
+ } catch (Exception e) {
+ throw new TikaException("Could not calculate a score how well NGramProfiles match each other");
+ }
+ return sum;
+ }
+
+ /**
+ * Loads a ngram profile from an InputStream (assumes UTF-8 encoded content)
+ *
+ * @param is the InputStream to read
+ */
+ public void load(InputStream is) throws IOException {
+
+ ngrams.clear();
+ ngramcounts = new int[maxLength + 1];
+ BufferedReader reader = new BufferedReader(new InputStreamReader(is, UTF_8));
+ String line = null;
+
+ while ((line = reader.readLine()) != null) {
+
+ // # starts a comment line
+ if (line.charAt(0) != '#') {
+ int spacepos = line.indexOf(' ');
+ String ngramsequence = line.substring(0, spacepos).trim();
+ int len = ngramsequence.length();
+ if ((len >= minLength) && (len <= maxLength)) {
+ int ngramcount = Integer.parseInt(line.substring(spacepos + 1));
+ NGramEntry en = new NGramEntry(ngramsequence, ngramcount);
+ ngrams.put(en.getSeq(), en);
+ ngramcounts[len] += ngramcount;
+ }
+ }
+ }
+ normalize();
+ }
+
+ /**
+ * Creates a new Language profile from (preferably quite large - 5-10k of
+ * lines) text file
+ *
+ * @param name to be given for the profile
+ * @param is a stream to be read
+ * @param encoding is the encoding of stream
+ *
+ * @throws TikaException if could not create a language profile
+ *
+ */
+ public static LanguageProfilerBuilder create(String name, InputStream is, String encoding) throws TikaException {
+
+ LanguageProfilerBuilder newProfile = new LanguageProfilerBuilder(name,
+ ABSOLUTE_MIN_NGRAM_LENGTH, ABSOLUTE_MAX_NGRAM_LENGTH);
+ BufferedInputStream bis = new BufferedInputStream(is);
+
+ byte buffer[] = new byte[4096];
+ StringBuilder text = new StringBuilder();
+ int len;
+
+ try {
+ while ((len = bis.read(buffer)) != -1) {
+ text.append(new String(buffer, 0, len, encoding));
+ }
+ } catch (IOException e) {
+ throw new TikaException("Could not create profile, " + e.getMessage());
+ }
+
+ newProfile.analyze(text);
+ return newProfile;
+ }
+
+ /**
+ * Writes NGramProfile content into OutputStream, content is outputted with
+ * UTF-8 encoding
+ *
+ * @param os the Stream to output to
+ *
+ * @throws IOException
+ */
+ public void save(OutputStream os) throws IOException {
+ os.write(("# NgramProfile generated at " + new Date() +
+ " for Apache Tika Language Identification\n").getBytes(UTF_8));
+
+ // And then each ngram
+
+ // First dispatch ngrams in many lists depending on their size
+ // (one list for each size, in order to store MAX_SIZE ngrams for each
+ // size of ngram)
+ List list = new ArrayList();
+ List sublist = new ArrayList();
+ NGramEntry[] entries = ngrams.values().toArray(
+ new NGramEntry[ngrams.size()]);
+ for (int i = minLength; i <= maxLength; i++) {
+ for (int j = 0; j < entries.length; j++) {
+ if (entries[j].getSeq().length() == i) {
+ sublist.add(entries[j]);
+ }
+ }
+ Collections.sort(sublist);
+ if (sublist.size() > MAX_SIZE) {
+ sublist = sublist.subList(0, MAX_SIZE);
+ }
+ list.addAll(sublist);
+ sublist.clear();
+ }
+ for (int i = 0; i < list.size(); i++) {
+ NGramEntry e = list.get(i);
+ String line = e.toString() + " " + e.getCount() + "\n";
+ os.write(line.getBytes(UTF_8));
+ }
+ os.flush();
+ }
+
+ /**
+ * main method used for testing only
+ *
+ * @param args
+ */
+ public static void main(String args[]) {
+
+ // -create he sample_he.txt utf-8
+
+ String usage = "Usage: NGramProfile "
+ + "[-create profilename filename encoding] "
+ + "[-similarity file1 file2] "
+ + "[-score profile-name filename encoding]";
+ int command = 0;
+
+ final int CREATE = 1;
+ final int SIMILARITY = 2;
+ final int SCORE = 3;
+
+ String profilename = "";
+ String filename = "";
+ String filename2 = "";
+ String encoding = "";
+
+ if (args.length == 0) {
+ System.err.println(usage);
+ System.exit(-1);
+ }
+
+ for (int i = 0; i < args.length; i++) { // parse command line
+ if (args[i].equals("-create")) { // found -create option
+ command = CREATE;
+ profilename = args[++i];
+ filename = args[++i];
+ encoding = args[++i];
+ }
+
+ if (args[i].equals("-similarity")) { // found -similarity option
+ command = SIMILARITY;
+ filename = args[++i];
+ filename2 = args[++i];
+ encoding = args[++i];
+ }
+
+ if (args[i].equals("-score")) { // found -Score option
+ command = SCORE;
+ profilename = args[++i];
+ filename = args[++i];
+ encoding = args[++i];
+ }
+ }
+
+ try {
+
+ switch (command) {
+
+ case CREATE:
+
+ File f = new File(filename);
+ FileInputStream fis = new FileInputStream(f);
+ LanguageProfilerBuilder newProfile = LanguageProfilerBuilder
+ .create(profilename, fis, encoding);
+ fis.close();
+ f = new File(profilename + "." + FILE_EXTENSION);
+ FileOutputStream fos = new FileOutputStream(f);
+ newProfile.save(fos);
+ System.out.println("new profile " + profilename + "."
+ + FILE_EXTENSION + " was created.");
+ break;
+
+ case SIMILARITY:
+
+ f = new File(filename);
+ fis = new FileInputStream(f);
+ newProfile = LanguageProfilerBuilder.create(filename, fis,
+ encoding);
+ newProfile.normalize();
+
+ f = new File(filename2);
+ fis = new FileInputStream(f);
+ LanguageProfilerBuilder newProfile2 = LanguageProfilerBuilder
+ .create(filename2, fis, encoding);
+ newProfile2.normalize();
+ System.out.println("Similarity is "
+ + newProfile.getSimilarity(newProfile2));
+ break;
+
+ case SCORE:
+ f = new File(filename);
+ fis = new FileInputStream(f);
+ newProfile = LanguageProfilerBuilder.create(filename, fis,
+ encoding);
+
+ f = new File(profilename + "." + FILE_EXTENSION);
+ fis = new FileInputStream(f);
+ LanguageProfilerBuilder compare = new LanguageProfilerBuilder(
+ profilename, DEFAULT_MIN_NGRAM_LENGTH,
+ DEFAULT_MAX_NGRAM_LENGTH);
+ compare.load(fis);
+ System.out.println("Score is "
+ + compare.getSimilarity(newProfile));
+ break;
+
+ }
+
+ } catch (Exception e) {
+ e.printStackTrace();
+ // throw new TikaException("");
+ }
+ }
+
+
+ /**
+ * Inner class that describes a NGram
+ */
+ static class NGramEntry implements Comparable {
+
+ /** The NGRamProfile this NGram is related to */
+ private LanguageProfilerBuilder profile = null;
+
+ /** The sequence of characters of the ngram */
+ CharSequence seq = null;
+
+ /** The number of occurences of this ngram in its profile */
+ private int count = 0;
+
+ /** The frequency of this ngram in its profile */
+ private float frequency = 0.0F;
+
+ /**
+ * Constructs a new NGramEntry
+ *
+ * @param seq is the sequence of characters of the ngram
+ */
+ public NGramEntry(CharSequence seq) {
+ this.seq = seq;
+ }
+
+ /**
+ * Constructs a new NGramEntry
+ *
+ * @param seq is the sequence of characters of the ngram
+ * @param count is the number of occurrences of this ngram
+ */
+ public NGramEntry(String seq, int count) {
+ this.seq = new StringBuffer(seq).subSequence(0, seq.length());
+ this.count = count;
+ }
+
+ /**
+ * Returns the number of occurrences of this ngram in its profile
+ *
+ * @return the number of occurrences of this ngram in its profile
+ */
+ public int getCount() {
+ return count;
+ }
+
+ /**
+ * Returns the frequency of this ngram in its profile
+ *
+ * @return the frequency of this ngram in its profile
+ */
+ public float getFrequency() {
+ return frequency;
+ }
+
+ /**
+ * Returns the sequence of characters of this ngram
+ *
+ * @return the sequence of characters of this ngram
+ */
+ public CharSequence getSeq() {
+ return seq;
+ }
+
+ /**
+ * Returns the size of this ngram
+ *
+ * @return the size of this ngram
+ */
+ public int size() {
+ return seq.length();
+ }
+
+ // Inherited JavaDoc
+ public int compareTo(NGramEntry ngram) {
+ int diff = Float.compare(ngram.getFrequency(), frequency);
+ if (diff != 0) {
+ return diff;
+ } else {
+ return (toString().compareTo(ngram.toString()));
+ }
+ }
+
+ /**
+ * Increments the number of occurrences of this ngram.
+ */
+ public void inc() {
+ count++;
+ }
+
+ /**
+ * Associated a profile to this ngram
+ *
+ * @param profile
+ * is the profile associated to this ngram
+ */
+ public void setProfile(LanguageProfilerBuilder profile) {
+ this.profile = profile;
+ }
+
+ /**
+ * Returns the profile associated to this ngram
+ *
+ * @return the profile associated to this ngram
+ */
+ public LanguageProfilerBuilder getProfile() {
+ return profile;
+ }
+
+ // Inherited JavaDoc
+ public String toString() {
+ return seq.toString();
+ }
+
+ // Inherited JavaDoc
+ public int hashCode() {
+ return seq.hashCode();
+ }
+
+ // Inherited JavaDoc
+ public boolean equals(Object obj) {
+
+ NGramEntry ngram = null;
+ try {
+ ngram = (NGramEntry) obj;
+ return ngram.seq.equals(seq);
+ } catch (Exception e) {
+ return false;
+ }
+ }
+
+ }
+
+ private static class QuickStringBuffer implements CharSequence {
+
+ private char value[];
+
+ private int count;
+
+ QuickStringBuffer() {
+ this(16);
+ }
+
+ QuickStringBuffer(char[] value) {
+ this.value = value;
+ count = value.length;
+ }
+
+ QuickStringBuffer(int length) {
+ value = new char[length];
+ }
+
+ QuickStringBuffer(String str) {
+ this(str.length() + 16);
+ append(str);
+ }
+
+ public int length() {
+ return count;
+ }
+
+ private void expandCapacity(int minimumCapacity) {
+ int newCapacity = (value.length + 1) * 2;
+ if (newCapacity < 0) {
+ newCapacity = Integer.MAX_VALUE;
+ } else if (minimumCapacity > newCapacity) {
+ newCapacity = minimumCapacity;
+ }
+
+ char newValue[] = new char[newCapacity];
+ System.arraycopy(value, 0, newValue, 0, count);
+ value = newValue;
+ }
+
+ QuickStringBuffer clear() {
+ count = 0;
+ return this;
+ }
+
+ public char charAt(int index) {
+ return value[index];
+ }
+
+ QuickStringBuffer append(String str) {
+ if (str == null) {
+ str = String.valueOf(str);
+ }
+
+ int len = str.length();
+ int newcount = count + len;
+ if (newcount > value.length) {
+ expandCapacity(newcount);
+ }
+ str.getChars(0, len, value, count);
+ count = newcount;
+ return this;
+ }
+
+ QuickStringBuffer append(char c) {
+ int newcount = count + 1;
+ if (newcount > value.length) {
+ expandCapacity(newcount);
+ }
+ value[count++] = c;
+ return this;
+ }
+
+ public CharSequence subSequence(int start, int end) {
+ return new String(value, start, end - start);
+ }
+
+ public String toString() {
+ return new String(this.value);
+ }
+ }
+}
diff --git a/tika-core/src/main/java/org/apache/tika/language/ProfilingHandler.java b/tika-core/src/main/java/org/apache/tika/language/ProfilingHandler.java
new file mode 100644
index 0000000000..b3a1bc8811
--- /dev/null
+++ b/tika-core/src/main/java/org/apache/tika/language/ProfilingHandler.java
@@ -0,0 +1,68 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+import org.apache.tika.sax.WriteOutContentHandler;
+
+/**
+ * SAX content handler that builds a language profile based on all the
+ * received character content.
+ * @deprecated use {@link org.apache.tika.language.detect.LanguageHandler}
+ * @since Apache Tika 0.5
+ */
+@Deprecated
+public class ProfilingHandler extends WriteOutContentHandler {
+
+ private final ProfilingWriter writer;
+
+ public ProfilingHandler(ProfilingWriter writer) {
+ super(writer);
+ this.writer = writer;
+ }
+
+ public ProfilingHandler(LanguageProfile profile) {
+ this(new ProfilingWriter(profile));
+ }
+
+ public ProfilingHandler() {
+ this(new ProfilingWriter());
+ }
+
+ /**
+ * Returns the language profile being built by this content handler.
+ * Note that the returned profile gets updated whenever new SAX events
+ * are received by this content handler. Use the {@link #getLanguage()}
+ * method to get the language that best matches the current state of
+ * the profile.
+ *
+ * @return language profile
+ */
+ public LanguageProfile getProfile() {
+ return writer.getProfile();
+ }
+
+ /**
+ * Returns the language that best matches the current state of the
+ * language profile.
+ *
+ * @return language that best matches the current profile
+ */
+ public LanguageIdentifier getLanguage() {
+ return writer.getLanguage();
+ }
+
+}
diff --git a/tika-core/src/main/java/org/apache/tika/language/ProfilingWriter.java b/tika-core/src/main/java/org/apache/tika/language/ProfilingWriter.java
new file mode 100644
index 0000000000..446f570d44
--- /dev/null
+++ b/tika-core/src/main/java/org/apache/tika/language/ProfilingWriter.java
@@ -0,0 +1,105 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+import java.io.IOException;
+import java.io.Writer;
+
+/**
+ * Writer that builds a language profile based on all the written content.
+ *
+ * @since Apache Tika 0.5
+ * @deprecated use {@link org.apache.tika.language.detect.LanguageWriter}
+ */
+@Deprecated
+public class ProfilingWriter extends Writer {
+
+ private final LanguageProfile profile;
+
+ private char[] buffer = new char[] { 0, 0, '_' };
+
+ private int n = 1;
+
+ public ProfilingWriter(LanguageProfile profile) {
+ this.profile = profile;
+ }
+
+ public ProfilingWriter() {
+ this(new LanguageProfile());
+ }
+
+ /**
+ * Returns the language profile being built by this writer. Note that
+ * the returned profile gets updated whenever new characters are written.
+ * Use the {@link #getLanguage()} method to get the language that best
+ * matches the current state of the profile.
+ *
+ * @return language profile
+ */
+ public LanguageProfile getProfile() {
+ return profile;
+ }
+
+ /**
+ * Returns the language that best matches the current state of the
+ * language profile.
+ *
+ * @return language that best matches the current profile
+ */
+ public LanguageIdentifier getLanguage() {
+ return new LanguageIdentifier(profile);
+ }
+
+ @Override
+ public void write(char[] cbuf, int off, int len) {
+ for (int i = 0; i < len; i++) {
+ char c = Character.toLowerCase(cbuf[off + i]);
+ if (Character.isLetter(c)) {
+ addLetter(c);
+ } else {
+ addSeparator();
+ }
+ }
+ }
+
+ private void addLetter(char c) {
+ System.arraycopy(buffer, 1, buffer, 0, buffer.length - 1);
+ buffer[buffer.length - 1] = c;
+ n++;
+ if (n >= buffer.length) {
+ profile.add(new String(buffer));
+ }
+ }
+
+ private void addSeparator() {
+ addLetter('_');
+ n = 1;
+ }
+
+ @Override
+ public void close() throws IOException {
+ addSeparator();
+ }
+
+ /**
+ * Ignored.
+ */
+ @Override
+ public void flush() {
+ }
+
+}
diff --git a/tika-core/src/main/resources/org/apache/tika/language/be.ngp b/tika-core/src/main/resources/org/apache/tika/language/be.ngp
new file mode 100644
index 0000000000..5a90dfb4cc
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/be.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_па 3116
+_і_ 2556
+_на 2147
+_пр 2138
+на_ 2079
+ай_ 1954
+ста 1826
+_ка 1654
+пра 1646
+аў_ 1634
+_ў_ 1489
+_з_ 1484
+ава 1461
+_ст 1451
+ць_ 1391
+га_ 1369
+кі_ 1308
+ага 1303
+_у_ 1298
+ны_ 1297
+_ад 1277
+_за 1271
+_як 1261
+ска 1234
+_вы 1167
+_да 1149
+ам_ 1123
+ii_ 1108
+ых_ 1094
+пер 1074
+ара 1055
+дзе 1022
+_ра 997
+_ма 950
+ым_ 946
+ая_ 934
+най 933
+ана 932
+ыя_ 920
+ца_ 919
+не_ 899
+льн 883
+ла_ 846
+пад 842
+ван 836
+ера 832
+алі 831
+пры 819
+ае_ 818
+цца 811
+год 792
+_пе 783
+мі_ 779
+аль 776
+ня_ 773
+лі_ 772
+_th 765
+анн 760
+_i_ 748
+да_ 744
+ад_ 741
+ала 737
+ада 736
+_ii 733
+ва_ 729
+асц 724
+скі 714
+рад 710
+_не 701
+_бы 688
+рац 681
+аст 679
+кам 668
+ся_ 668
+ных 651
+_са 650
+іст 648
+ары 640
+ыі_ 636
+оль 635
+тар 633
+the 625
+ння 625
+кай 618
+ля_ 610
+_аб 607
+ка_ 607
+ама 604
+іка 604
+кар 599
+_of 594
+of_ 587
+he_ 586
+ki_ 584
+on_ 580
+дзі 580
+аны 579
+ным 579
+рам 578
+рас 577
+рав 569
+але 568
+_та 561
+er_ 561
+ры_ 555
+які 555
+ці_ 553
+дзя 552
+вал 548
+тра 548
+кан 545
+нас 544
+наг 542
+_го 540
+таг 540
+аго 539
+тва 539
+адз 536
+нік 535
+амі 534
+ні_ 533
+ран 527
+ку_ 526
+нне 517
+ата 513
+іі_ 508
+сці 507
+ski 505
+ія_ 505
+_ча 503
+раз 501
+ацы 499
+es_ 498
+зе_ 493
+нск 492
+_ва 486
+зна 485
+_лі 484
+та_ 481
+_св 480
+ую_ 476
+_co 472
+аць 471
+лас 468
+тры 466
+ддз 460
+час 460
+лад 459
+го_ 457
+ств 450
+іх_ 450
+стр 449
+ion 445
+сам 442
+_га 441
+ная 441
+чна 441
+_сі 437
+так 437
+_дз 436
+ім_ 436
+тал 435
+ныя 434
+us_ 428
+ецц 428
+_de 426
+_ал 424
+одд 424
+ра_ 424
+ыў_ 424
+iii 418
+аро 416
+лік 415
+_су 414
+кла 413
+лен 410
+таў 408
+рым 406
+вае 404
+тан 402
+еры 400
+каг 400
+_рэ 398
+энн 398
+оўн 395
+одз 394
+_ін 393
+вы_ 392
+_wi 387
+был 386
+па_ 386
+там 384
+пас 382
+раў 381
+ова 380
+дна 379
+рыс 379
+енн 373
+нав 372
+and 371
+ычн 371
+_re 370
+апа 369
+ма_ 369
+_по 368
+йск 368
+ход 368
+_ме 366
+_гр 364
+ах_ 364
+адн 363
+_in 357
+is_ 356
+ані 355
+кім 355
+рыя 355
+аве 353
+для 353
+_an 352
+_вя 351
+tio 351
+аві 349
+гра 348
+овы 348
+анс 345
+_дл 343
+_сп 343
+ача 343
+ыка 343
+ыст 343
+аўн 342
+al_ 341
+_бе 339
+_li 338
+кал 338
+_ас 337
+ows 336
+_ma 335
+_шт 335
+_ве 333
+_кр 333
+вар 333
+ьна 331
+ман 330
+стэ 330
+_ба 328
+спа 328
+оў_ 327
+ўна 327
+_ар 326
+яго 325
+кія 323
+_vi 322
+аля 319
+пар 319
+цыя 318
+кая 317
+_po 316
+_яг 316
+мен 316
+пал 316
+нач 315
+рат 312
+анд 311
+аса 309
+ой_ 308
+то_ 308
+ар_ 307
+ле_ 307
+пам 307
+_тэ 306
+ati 306
+nd_ 306
+ter 306
+_ім 303
+род 303
+an_ 302
+вай 302
+тэм 302
+цыі 301
+_а_ 300
+ваў 299
+вер 299
+мы_ 299
+нал 299
+_мо 298
+быў 298
+асн 296
+en_ 295
+ліс 295
+ак_ 291
+аўс 290
+што 290
+сва 288
+вык 287
+рус 287
+аме 286
+ака 284
+нам 284
+чны 284
+_ко 283
+рал 283
+яў_ 282
+ены 281
+чан 281
+_ат 280
+авы 280
+сту 279
+ася 276
+ахо 276
+ора 276
+сіс 276
+сто 275
+_xi 274
+аец 274
+як_ 274
+ялі 274
+гэт 273
+кра 273
+_be 272
+_ar 271
+нні 271
+одн 271
+ты_ 271
+му_ 270
+паў 269
+яка 269
+_мі 268
+іна 268
+ду_ 267
+аб_ 266
+ына 266
+ўся 266
+de_ 265
+_гэ 264
+кіх 264
+аюц 263
+уль 262
+_pr 261
+ed_ 261
+_ск 260
+ia_ 260
+чын 260
+ыма 260
+_pa 259
+ўва 259
+ало 257
+мар 257
+_ро 255
+ды_ 255
+ела 255
+сць 255
+асп 254
+кас 254
+льк 254
+оры 254
+чы_ 254
+эта 254
+азв 252
+даў 252
+іта 252
+_во 251
+_зн 249
+бел 249
+_то 248
+_гу 247
+iv_ 247
+цый 247
+зен 246
+ыла 246
+асл 245
+мал 245
+wsk 244
+атр 244
+зя_ 244
+йна 244
+ing 242
+уск 242
+кса 241
+мас 241
+чэн 241
+ады 240
+вац 240
+ода 240
+_st 239
+ch_ 239
+арт 239
+_ап 237
+_xv 236
+_ся 236
+_тр 236
+in_ 236
+вял 236
+за_ 236
+тэр 236
+цы_ 236
+ена 235
+пав 235
+_to 234
+ng_ 234
+акс 234
+_бо 233
+_ві 233
+кав 233
+іра 232
+re_ 231
+аба 231
+le_ 230
+сты 230
+ант 229
+ную 229
+яй_ 229
+раб 228
+чал 228
+іў_ 228
+sta 227
+тор 227
+амп 226
+піс 226
+ix_ 225
+нта 224
+ent 223
+to_ 223
+_no 222
+_ан 221
+дав 221
+каў 221
+тур 221
+раг 220
+_ге 219
+ist 219
+ыва 219
+ьны 219
+or_ 218
+зва 218
+_so 217
+ару 217
+нар 216
+ьні 216
+ерш 215
+рын 215
+rus 214
+at_ 213
+ве_ 213
+пач 213
+іла 213
+_ca 212
+ем_ 212
+мер 212
+ст_ 212
+_bo 211
+або 211
+ніц 210
+ымі 210
+ўны 210
+_iv 209
+іва 209
+ўля 209
+vii 208
+маг 208
+_ру 207
+вых 207
+дар 207
+_a_ 206
+_ты 206
+xvi 206
+нов 206
+юць 206
+_un 205
+_се 205
+nte 205
+аза 205
+анц 205
+ель 205
+_la 204
+ылі 204
+_ўс 203
+ыйн 203
+бра 202
+льш 202
+літ 202
+нае 202
+тым 202
+ўні 202
+_se 201
+ndo 201
+оўв 201
+пан 201
+яе_ 201
+win 200
+іцы 200
+_ды 199
+_кі 199
+наў 199
+рыі 199
+шча 199
+аты 198
+мат 198
+пол 198
+сна 198
+_mi 197
+_аў 197
+ate 197
+агр 197
+ога 197
+са_ 197
+спр 197
+dow 196
+буд 195
+лав 195
+ль_ 195
+рак 195
+гад 194
+рма 194
+мов 193
+сла 193
+ькі 193
+адк 192
+дал 192
+рык 192
+іць 192
+ind 191
+гру 191
+ічн 191
+_na 190
+et_ 190
+na_ 190
+амо 190
+_fo 189
+тна 189
+_sa 188
+асі 188
+ган 188
+ўск 188
+int 187
+рыт 187
+дам 186
+лан 186
+мпе 186
+туп 186
+імп 186
+_др 185
+_ры 185
+лар 185
+тоў 185
+_бу 184
+la_ 184
+інш 183
+ver 182
+тав 182
+ікі 182
+_le 181
+гор 181
+іза 181
+_al 180
+дра 180
+яўл 180
+vi_ 179
+ляе 179
+ту_ 179
+ta_ 177
+te_ 177
+вой 177
+вор 177
+lar 175
+аду 175
+жна 175
+ков 175
+кры 174
+нцы 174
+яко 174
+абі 173
+гал 173
+рна 173
+ік_ 173
+_му 172
+ан_ 172
+ачы 172
+ваю 172
+нен 172
+che 171
+for 171
+ліц 171
+ce_ 170
+lin 170
+адс 170
+наз 170
+_ro 169
+ws_ 169
+зі_ 169
+од_ 168
+ers 167
+st_ 167
+ас_ 167
+зіц 167
+тка 167
+ён_ 167
+_ку 166
+tor 166
+йны 166
+ne_ 165
+апі 165
+акі 164
+бар 164
+кір 164
+ліч 164
+рск 164
+тыч 164
+ыю_ 164
+_ус 163
+_do 162
+аво 162
+аўт 162
+вед 162
+дан 162
+дны 162
+_am 161
+ns_ 161
+вым 161
+ніі 161
+рап 161
+_ца 160
+os_ 160
+акт 160
+жан 160
+нак 160
+шы_ 160
+ілі 160
+_чы 159
+арм 159
+бол 159
+ей_ 159
+каз 159
+тол 159
+ума 159
+адо 158
+ейс 158
+ыкл 158
+ыць 158
+_но 157
+гар 157
+_ле 156
+пы_ 156
+рон 156
+ін_ 156
+няў 155
+скл 155
+це_ 155
+_di 154
+вет 154
+ека 154
+роў 154
+сав 154
+_fr 153
+_зв 153
+ste 153
+апр 153
+ica 152
+гер 152
+заб 152
+зін 152
+паз 152
+_mo 151
+el_ 151
+ie_ 151
+тай 151
+ызн 151
+эмы 151
+ra_ 150
+um_ 150
+гул 150
+пла 150
+руп 150
+ыні 150
+_ch 149
+_пл 149
+арэ 149
+вод 149
+рта 149
+цар 149
+am_ 148
+аму 148
+est 147
+адр 147
+лів 147
+сан 147
+as_ 146
+апе 146
+аск 146
+дад 146
+ект 146
+зас 146
+цэн 146
+іль 146
+_ак 145
+con 145
+азн 145
+кую 145
+нда 145
+нем 145
+рга 145
+ску 145
+тво 145
+цтв 145
+_c_ 144
+_яў 144
+ot_ 144
+лін 144
+нап 144
+яна 144
+яшч 144
+кол 143
+льс 143
+ну_ 143
+ршы 143
+_ne 142
+_te 142
+his 142
+блі 142
+вяр 142
+кта 142
+_me 141
+ms_ 141
+nt_ 141
+азі 141
+анг 141
+віл 141
+аін 140
+зам 140
+суп 140
+_sp 139
+_фа 139
+ari 139
+вып 139
+ент 139
+коў 139
+мін 139
+рэн 139
+тро 139
+ill 138
+ran 138
+sto 138
+амы 138
+кае 138
+роз 138
+чым 138
+іча 138
+bel 137
+кат 137
+ноў 137
+ост 137
+пак 137
+уда 137
+юцц 137
+_xx 136
+_ўз 136
+ry_ 136
+амн 136
+аўл 136
+ерс 136
+зел 136
+лам 136
+мны 136
+ншы 136
+рыз 136
+рэд 136
+ючы 136
+all 135
+ic_ 135
+пап 135
+_ba 134
+_фр 134
+_ён 134
+афі 134
+зав 134
+нія 134
+све 134
+яме 134
+_іс 133
+lan 133
+se_ 133
+айн 133
+арс 133
+ацэ 133
+раі 133
+уча 133
+іся 133
+_gr 132
+ela 132
+men 132
+uni 132
+зац 132
+ней 132
+оду 132
+энт 132
+_гі 131
+зах 131
+мац 131
+нст 131
+она 131
+спе 131
+ула 131
+_ge 130
+_v_ 130
+xii 130
+вен 130
+вік 130
+ру_ 130
+ьск 130
+_зм 129
+edi 129
+per 129
+ане 129
+мад 129
+маў 129
+фар 129
+arm 128
+bot 128
+аз_ 128
+нтр 128
+ско 128
+цэс 128
+ыяд 128
+іку 128
+ўта 128
+ета 127
+між 127
+іса 127
+_ho 126
+_ха 126
+com 126
+ome 126
+бал 126
+ярж 126
+_si 125
+_кл 125
+era 125
+атк 125
+мес 125
+ржа 125
+_su 124
+_зб 124
+ar_ 124
+nal 124
+rea 124
+він 124
+зап 124
+кул 124
+лаў 124
+ніз 124
+сля 124
+ўле 124
+_кн 123
+ani 123
+aru 123
+ich 123
+ona 123
+адп 123
+бер 123
+ваг 123
+зяр 123
+мпа 123
+цка 123
+імі 123
+_ам 122
+_ну 122
+mar 122
+ńsk 122
+асо 122
+гу_ 122
+зан 122
+нан 122
+нах 122
+lit 121
+nce 121
+sch 121
+ату 121
+уст 121
+чат 121
+ўст 121
+_at 120
+ian 120
+pol 120
+ris 120
+агу 120
+дст 119
+дын 119
+ерн 119
+зал 119
+сар 119
+тны 119
+удз 119
+_ni 118
+_ла 118
+бо_ 118
+ніч 118
+усі 118
+ive 117
+rat 117
+абр 117
+дск 117
+кцы 117
+мет 117
+нна 117
+тат 117
+ію_ 117
+_бр 116
+der 116
+no_ 116
+саб 116
+яды 116
+_г_ 115
+ens 115
+ons 115
+rs_ 115
+ано 115
+ато 115
+эра 115
+_is 114
+ali 114
+les 114
+lis 114
+man 114
+tan 114
+два 114
+дыч 114
+кты 114
+над 114
+ярэ 114
+_da 113
+ten 113
+зей 113
+ло_ 113
+льт 113
+нны 113
+нум 113
+яец 113
+_дв 112
+_лю 112
+_сл 112
+tra 112
+адм 112
+дае 112
+нек 112
+озн 112
+упы 112
+іны 112
+_жа 111
+_яе 111
+ll_ 111
+арк 111
+ліз 111
+стк 111
+цоў 111
+_ha 110
+_pe 110
+_ян 110
+ka_ 110
+дка 110
+ойс 110
+рай 110
+pro 109
+ros 109
+абл 109
+авя 109
+аха 109
+ву_ 109
+выя 109
+еда 109
+раф 109
+фра 109
+цыю 109
+_ja 108
+th_ 108
+арг 108
+пат 108
+ыло 108
+эты 108
+ях_ 108
+іцц 108
+_on 107
+ard 107
+ell 107
+lle 107
+om_ 107
+str 107
+пус 107
+_he 106
+_дэ 106
+art 106
+coa 106
+por 106
+адт 106
+аца 106
+бав 106
+эры 106
+_tr 105
+oli 105
+выс 105
+нты 105
\ No newline at end of file
diff --git a/tika-core/src/main/resources/org/apache/tika/language/ca.ngp b/tika-core/src/main/resources/org/apache/tika/language/ca.ngp
new file mode 100644
index 0000000000..083e0e6e27
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/ca.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_de 516022
+es_ 365077
+de_ 334150
+la_ 263275
+el_ 261190
+_el 243111
+_la 233181
+_co 177338
+_i_ 171080
+en_ 169592
+ent 166275
+que 166181
+ls_ 157560
+nt_ 150408
+_a_ 143945
+_es 142224
+_qu 141042
+_se 140738
+_en 134188
+_pe 132199
+er_ 131611
+_un 123347
+per 123282
+al_ 120012
+ia_ 118076
+del 116515
+_al 107051
+_l_ 105983
+at_ 105377
+est 105341
+men 104773
+ue_ 104665
+na_ 104442
+els 101956
+ar_ 101658
+_ca 100754
+va_ 97716
+les 97400
+ts_ 95576
+_va 93846
+_pr 91960
+_re 90487
+ió_ 89704
+és_ 87754
+ra_ 86970
+ant 86210
+_d_ 84565
+ns_ 83984
+res 79034
+con 78700
+com 76189
+re_ 75747
+_le 73315
+ció 71365
+ta_ 71034
+_ma 69384
+tat 69135
+_po 67807
+des 67019
+_pa 65755
+sta 65224
+aci 64934
+amb 64831
+_no 63591
+ica 62191
+da_ 61970
+ons 61946
+un_ 60044
+_am 59421
+tre 58786
+era 55582
+_di 55225
+ter 55129
+an_ 54289
+ca_ 54098
+_in 53935
+ita 53038
+ues 52668
+una 52339
+_an 49240
+_te 49089
+mb_ 48417
+pro 47675
+nci 47057
+_mo 47048
+cia 46374
+ion 46213
+ran 46058
+ona 45850
+par 45623
+ist 44820
+_tr 43920
+ada 43914
+tra 43026
+als 41706
+_fo 41079
+om_ 40973
+_ll 40939
+_és 40055
+ria 39718
+_ha 39263
+ir_ 38985
+tes 37588
+ame 37502
+eix 36953
+_so 36817
+os_ 36738
+rs_ 36655
+ser 36569
+nta 35894
+ell 35382
+ntr 35005
+or_ 34878
+aqu 34384
+ura 34186
+cio 33689
+ren 33576
+tan 33546
+esp 33545
+ste 33496
+ici 33411
+car 33386
+_ta 33334
+pre 33213
+any 33166
+eri 33092
+ina 32951
+tal 32531
+str 32499
+_ba 32466
+més 32434
+art 32365
+_me 32132
+lla 32045
+nts 31902
+_aq 31778
+ats 31473
+tic 31409
+_si 31263
+sa_ 31258
+_ar 31183
+bre 30897
+_to 30832
+ten 30645
+le_ 30308
+_fi 30264
+ort 30218
+man 30192
+ver 30142
+for 29957
+_ex 29143
+sti 29068
+_ac 28797
+nte 28630
+us_ 28612
+eu_ 28538
+nom 28515
+lit 28502
+sen 28418
+seg 28278
+tor 28235
+err 28123
+_vi 28083
+_mé 28005
+ers 27946
+_su 27596
+_sa 27595
+mar 27488
+ic_ 27478
+lle 27184
+ari 26678
+ont 26666
+ara 26489
+ori 26486
+_fe 26413
+seu 26393
+_gr 26304
+qua 26246
+_hi 26199
+is_ 26180
+int 25926
+gra 25649
+tar 25610
+_mi 25597
+no_ 25452
+nes 25065
+alt 24511
+ix_ 24456
+ll_ 24451
+_ve 24208
+por 24096
+ere 24061
+ans 24031
+arr 23938
+ime 23877
+fer 23807
+ali 23651
+all 23633
+ial 23506
+ass 23454
+pri 23452
+_o_ 23436
+ual 23234
+ana 23127
+rre 23061
+esc 22896
+ect 22871
+ome 22854
+nal 22845
+_s_ 22560
+ral 22518
+nic 22285
+_do 22283
+rt_ 22264
+st_ 22258
+mer 22240
+tam 22231
+uni 22189
+ma_ 22184
+ble 22180
+ene 22143
+nti 22140
+tur 22048
+van 22021
+orm 22005
+act 21946
+ins 21897
+ies 21892
+lar 21738
+_ci 21641
+cs_ 21161
+se_ 20858
+pos 20683
+rra 20605
+ava 20555
+fin 20460
+rec 20446
+tro 20443
+rac 20323
+rat 20233
+tot 20207
+ade 20156
+ssi 20136
+ner 20125
+cat 19966
+emp 19904
+sev 19886
+one 19873
+enc 19861
+rma 19747
+gen 19728
+it_ 19693
+den 19676
+lan 19577
+mat 19547
+itz 19446
+_ge 19434
+der 19382
+rta 19204
+ènc 19186
+ata 19034
+ot_ 18970
+fic 18950
+ate 18866
+nat 18829
+_cr 18819
+ide 18781
+eva 18674
+on_ 18627
+_ce 18458
+rti 18387
+tit 18385
+_mu 18237
+rim 18230
+_fa 18218
+ens 18112
+mes 18112
+cap 18107
+omp 18045
+eta 18011
+ric 17998
+reg 17890
+tri 17879
+ess 17709
+inc 17709
+ri_ 17687
+cci 17676
+_or 17654
+cte 17632
+min 17550
+ode 17544
+nar 17519
+egu 17514
+erm 17464
+sos 17459
+aix 17443
+ost 17412
+olt 17332
+cas 17292
+tza 17252
+cor 17228
+ssa 17182
+tem 16913
+qui 16901
+ili 16857
+dor 16849
+ón_ 16828
+obl 16777
+ret 16755
+bar 16710
+cal 16685
+ena 16678
+te_ 16677
+rad 16633
+alm 16596
+ien 16571
+rop 16567
+vol 16554
+obr 16529
+rme 16443
+are 16439
+mun 16433
+_fr 16417
+ven 16399
+ors 16387
+san 16350
+_im 16318
+can 16285
+dia 16285
+bé_ 16281
+mol 16137
+ill 16059
+me_ 16036
+ese 15975
+ixe 15972
+ha_ 15947
+_ai 15854
+et_ 15830
+lic 15800
+val 15792
+_ro 15789
+ale 15784
+_du 15675
+rit 15631
+cip 15576
+ert 15538
+lme 15519
+ord 15447
+and 15425
+ltr 15408
+gue 15316
+ado 15312
+ern 15098
+iqu 15087
+len 14989
+ris 14984
+nya 14948
+cul 14944
+cen 14918
+ol_ 14907
+ou_ 14906
+hi_ 14874
+rei 14862
+ula 14766
+ora 14745
+tin 14743
+pel 14711
+itu 14694
+eni 14603
+arc 14590
+dic 14407
+_ob 14388
+imp 14387
+dis 14310
+nit 14227
+ele 14009
+ani 13971
+ast 13971
+eme 13932
+ny_ 13839
+ive 13822
+_na 13820
+tua 13809
+oma 13726
+_pl 13717
+uer 13693
+osa 13686
+ron 13581
+ini 13555
+ala 13512
+ida 13500
+cie 13468
+cre 13468
+mon 13465
+end 13447
+tac 13438
+_er 13426
+mpo 13404
+ure 13374
+rie 13339
+tei 13267
+edi 13254
+unt 13234
+iu_ 13221
+nse 13173
+nen 13153
+nor 13079
+_só 13030
+rin 12959
+són 12945
+mit 12928
+oca 12908
+ine 12900
+ave 12869
+bla 12846
+mbé 12845
+mpl 12834
+_ap 12825
+ics 12814
+cad 12803
+nst 12802
+ves 12789
+nia 12782
+sit 12782
+rar 12769
+pla 12734
+_as 12727
+_gu 12721
+_ja 12720
+_ho 12715
+uta 12678
+ota 12648
+ses 12620
+via 12599
+ega 12561
+_li 12555
+lac 12526
+dre 12515
+gle 12477
+sol 12468
+pob 12447
+col 12441
+sió 12419
+anc 12363
+nca 12341
+ind 12339
+sse 12307
+rob 12271
+lat 12262
+nda 12249
+_ju 12215
+cri 12161
+rri 12146
+ane 12139
+mbr 12080
+rea 12049
+llo 11949
+ema 11932
+gua 11875
+rd_ 11866
+sar 11789
+rel 11778
+ber 11736
+erò 11715
+sic 11598
+_ne 11592
+cam 11520
+ple 11474
+pod 11458
+met 11451
+ctu 11440
+rep 11438
+pal 11427
+_da 11420
+rib 11400
+ati 11390
+ndi 11390
+rò_ 11380
+rio 11368
+esa 11341
+_ab 11328
+lli 11321
+dur 11318
+cos 11280
+iva 11228
+igu 11219
+_be 11216
+avi 11215
+ut_ 11203
+fra 11164
+bli 11153
+lem 11146
+ys_ 11134
+uan 11131
+ces 11109
+rom 11076
+ove 11038
+nys 11002
+gui 10995
+nça 10985
+tiv 10957
+egl 10943
+lia 10896
+ya_ 10893
+ult 10843
+erv 10831
+_ga 10734
+rna 10732
+_ri 10676
+_jo 10674
+ing 10662
+emb 10644
+eus 10637
+nce 10612
+nde 10594
+lor 10593
+nsi 10581
+ete 10554
+rca 10542
+ja_ 10524
+spe 10499
+lta 10474
+ifi 10465
+_em 10456
+pol 10444
+dir 10436
+ngu 10431
+nis 10409
+cer 10390
+don 10375
+_pu 10323
+eco 10300
+_ra 10262
+sob 10260
+ivi 10238
+ban 10229
+ian 10170
+sis 10162
+_fu 10153
+alg 10112
+rod 10078
+lt_ 10050
+_cl 10043
+pan 10040
+dif 10028
+ua_ 10012
+tel 9978
+li_ 9977
+cti 9957
+si_ 9943
+mor 9937
+gon 9889
+rés 9888
+egi 9884
+ni_ 9864
+abl 9848
+_bo 9844
+olu 9815
+mal 9813
+pas 9800
+ap_ 9785
+sme 9781
+cta 9727
+_ad 9715
+hav 9713
+ima 9703
+mic 9686
+apa 9669
+tru 9662
+ça_ 9643
+tir 9636
+mil 9608
+til 9572
+ego 9564
+ano 9507
+pen 9507
+_au 9488
+tge 9463
+_oc 9455
+spr 9442
+cla 9407
+orr 9393
+ciu 9374
+ola 9352
+oni 9339
+loc 9337
+ram 9321
+_on 9317
+_cu 9285
+_lo 9251
+sco 9204
+_vo 9195
+nad 9194
+ès_ 9179
+rov 9167
+esi 9153
+div 9145
+as_ 9130
+vis 9114
+fou 9048
+iut 9043
+ard 8995
+omi 8972
+nac 8969
+tiu 8965
+oc_ 8913
+aba 8860
+olo 8854
+ire 8841
+pré 8827
+il_ 8820
+oba 8808
+ang 8790
+erc 8775
+òri 8767
+_pi 8739
+ior 8736
+ite 8721
+ii_ 8705
+bra 8694
+eny 8693
+ism 8690
+exp 8687
+pot 8675
+oli 8626
+ore 8624
+_ti 8613
+ipa 8589
+din 8544
+lls 8534
+omb 8529
+mpe 8517
+cel 8502
+son 8501
+atr 8482
+dar 8460
+_at 8397
+sso 8378
+sid 8365
+its 8361
+_go 8338
+aca 8333
+pec 8306
+ga_ 8289
+ps_ 8274
+ge_ 8262
+atu 8257
+eng 8206
+rqu 8206
+etr 8170
+oci 8168
+lgu 8156
+stà 8124
+ler 8122
+lon 8118
+gun 8109
+roc 8104
+rer 8100
+lis 8081
+odu 8065
+tà_ 8062
+xen 8043
+his 7998
+ela 7945
+sem 7945
+tad 7919
+atg 7895
+in_ 7889
+sup 7878
+ote 7860
+uir 7809
+sal 7776
+ust 7768
+ama 7756
+reu 7735
+fil 7690
+spa 7671
+neg 7669
+ís_ 7662
+uns 7656
+amp 7646
+vil 7641
+ndr 7631
+adi 7617
+spo 7599
+eur 7590
+_xi 7571
+eci 7552
+tòr 7550
+reb 7523
+onc 7522
+ixa 7517
+uci 7514
+bal 7503
+eve 7490
+duc 7474
+rce 7431
+han 7411
+oss 7406
+bri 7389
+rig 7372
+vin 7362
+gut 7357
+jor 7343
+ros 7317
+eti 7308
+sca 7294
+ars 7286
+rn_ 7286
+ud_ 7268
+ucc 7258
+uit 7244
+ira 7243
+ipi 7239
+_br 7237
+var 7233
+anç 7223
+gre 7223
+ila 7217
+ei_ 7205
+rso 7194
+mpr 7170
+riu 7125
+efe 7122
+eli 7116
+isi 7105
+té_ 7098
+rem 7075
+und 7059
+ova 7043
+àni 7041
+inf 7026
+vid 7026
+sin 7008
+pon 7004
+nir 7000
+pli 6922
+ife 6896
+bas 6873
+arl 6871
+osi 6859
+aus 6851
+sia 6834
+upa 6821
+iar 6812
+_ag 6800
+scr 6758
+ovi 6753
+uen 6729
+gia 6727
+uti 6727
+xem 6727
+fon 6719
+rci 6717
+nve 6706
+iss 6705
+lin 6698
+aco 6694
+org 6677
+tim 6668
+cac 6662
+gad 6659
+ref 6647
+lec 6646
+ext 6638
+sig 6636
+stò 6622
+llu 6611
+sat 6606
+pat 6604
+acc 6577
+orn 6571
+ià_ 6556
+igi 6555
+lad 6555
+iat 6553
+ume 6547
+ajo 6541
+gan 6525
+rro 6523
+nov 6518
+ope 6518
+ba_ 6515
+tja 6512
+_ed 6493
+cit 6468
+ger 6462
+_he 6451
+fun 6434
+eda 6426
+maj 6401
+arg 6374
+_ni 6371
+pa_ 6369
+ito 6356
+enç 6344
+env 6341
+udi 6337
+ui_ 6317
+aig 6306
+dat 6296
+_eu 6285
+lim 6278
+rot 6262
+sor 6261
+iga 6249
+xa_ 6247
+íti 6224
+leg 6221
+dos 6196
+pet 6192
+au_ 6181
+olí 6152
+let 6144
+uny 6143
+_av 6136
+eso 6133
+ebr 6125
+bat 6104
+jun 6092
+tud 6092
+cto 6077
+asa 6062
+upe 6055
+tab 6053
+ben 6044
+pi_ 6039
+cle 6011
+rga 6005
+ne_ 6004
+imi 6002
+ond 5990
+rà_ 5990
+poc 5965
+tav 5944
+ges 5932
+rav 5920
+iba 5915
+tia 5906
+rev 5905
+àri 5897
+itj 5881
+lun 5875
+exe 5874
+gar 5843
+usa 5839
+abi 5825
+ots 5818
+vel 5816
+soc 5815
+aut 5798
+sio 5794
+exi 5791
+ole 5782
+tàn 5769
+mpa 5757
+lti 5752
+ac_ 5741
+elo 5728
+red 5719
+què 5714
+ogr 5712
+em_ 5710
+_bi 5697
+uro 5689
+evo 5683
+cid 5666
+ius 5663
+rte 5640
+nvi 5633
+bit 5623
+èri 5621
+òni 5609
+une 5606
+veg 5591
+evi 5576
+dem 5573
+vit 5542
+_té 5541
+uda 5491
+sub 5486
+mad 5484
+nsa 5484
+uct 5483
+uè_ 5475
+uar 5472
+opo 5470
+_af 5465
+lam 5454
+mod 5441
+eal 5429
+tig 5412
+sul 5409
+mos 5398
+obe 5388
+im_ 5375
+_ut 5373
+pit 5373
+stu 5364
+di_ 5346
+fet 5320
+ig_ 5313
+eno 5311
+ton 5311
+cis 5293
+nim 5292
+sud 5289
+ecc 5284
+uin 5245
+pul 5239
+alu 5233
+àti 5229
+fa_ 5220
+ece 5213
+dec 5200
+cep 5178
+dei 5171
+ruc 5169
+là_ 5168
+gov 5166
+due 5160
+_hu 5159
+ea_ 5159
+ixò 5154
+xò_ 5152
+dit 5145
+emi 5129
+set 5128
+ero 5125
+xí_ 5123
+gin 5117
+opi 5112
+mps 5108
+ose 5083
+ixí 5082
+mas 5078
+ono 5071
+nyo 5070
+sto 5049
+uat 5042
+dep 5035
+ocu 5033
+_of 5021
+ede 5004
+rsi 5002
+cin 5001
+cab 4986
+uei 4979
+equ 4973
+gat 4972
+_ec 4964
+uel 4957
+die 4930
+jan 4924
+ign 4916
+iet 4909
+oll 4909
+onv 4907
+lte 4905
+nqu 4905
+epr 4892
+omu 4883
+ms_ 4880
+los 4879
+um_ 4877
+isc 4871
+ltu 4866
+log 4865
+mis 4861
+dan 4844
+lít 4799
+ras 4784
+med 4778
+nvo 4770
+scu 4769
+iri 4766
+ibl 4754
+ols 4753
+ecu 4750
+sim 4733
+mac 4730
+zar 4727
+rag 4721
+bai 4720
+sec 4717
+cau 4712
+lig 4708
+agr 4687
+rla 4680
+uri 4671
+apr 4646
+odi 4637
+zac 4636
+rts 4634
+rup 4634
+cli 4629
+hor 4624
+def 4611
+fes 4607
+rol 4600
diff --git a/tika-core/src/main/resources/org/apache/tika/language/da.ngp b/tika-core/src/main/resources/org/apache/tika/language/da.ngp
new file mode 100644
index 0000000000..d8ff9bc933
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/da.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+er_ 132232
+_de 103517
+en_ 82666
+et_ 80661
+for 65286
+_fo 57945
+de_ 51382
+der 44049
+at_ 41915
+det 41381
+_og 40344
+_at 39482
+ing 38707
+den 36795
+og_ 36577
+_me 34924
+nde 34528
+_i_ 33267
+_vi 32625
+or_ 32053
+om_ 31206
+_er 29398
+il_ 29247
+re_ 28969
+_af 28934
+til 28370
+_ti 28270
+ke_ 27854
+ere 27756
+ne_ 26820
+_en 25210
+lig 24909
+ed_ 24168
+af_ 23702
+ter 23332
+es_ 22109
+ger 22046
+ge_ 21757
+and 21487
+ion 21203
+lle 21168
+_be 21089
+nin 20565
+te_ 20381
+kke 19844
+nge 19835
+ng_ 19621
+med 18904
+end 18886
+men 18796
+ske 18757
+som 18654
+_ha 18627
+els 18561
+_ko 18448
+_om 18051
+tte 17863
+ede 17830
+le_ 17790
+_so 17747
+gen 17236
+lse 17224
+ind 17109
+_st 16887
+ige 16683
+ern 16450
+_in 16439
+ste 16357
+se_ 16253
+ar_ 15962
+ikk 15896
+_på 15640
+ig_ 15274
+rne 15042
+vi_ 14945
+på_ 14727
+ver 14378
+isk 14355
+_ud 14205
+ent 14033
+an_ 13917
+_je 13885
+eg_ 13844
+_re 13815
+jeg 13707
+_si 13697
+_fr 13341
+ret 13313
+har 13273
+igt 13233
+del 13131
+ler 13016
+_ik 12818
+mme 12523
+res 12471
+vil 12426
+hed 12411
+_sk 12198
+one 12163
+rin 12026
+nne 11960
+gt_ 11839
+ska 11777
+kom 11592
+_eu 11223
+_hv 11033
+man 10992
+iss 10867
+omm 10770
+nte 10763
+age 10696
+_an 10556
+und 10124
+ner 10119
+nd_ 10098
+_he 10089
+ser 9903
+_mi 9852
+get 9849
+_et 9839
+ett 9756
+tio 9752
+ene 9541
+tet 9477
+ens 9417
+så_ 9402
+enn 9299
+mis 9287
+ive 9128
+_ma 9119
+_pr 9051
+nen 9049
+ati 8977
+lan 8972
+uro 8935
+_ve 8868
+eur 8851
+tig 8762
+al_ 8741
+ell 8695
+ors 8678
+sta 8674
+øre 8614
+ren 8526
+_sa 8460
+ore 8431
+mer 8304
+_al 8294
+rop 8291
+år_ 8254
+ord 8218
+sig 8135
+_ka 8105
+rer 8001
+ove 7998
+ære 7940
+kon 7892
+ghe 7782
+pro 7745
+lem 7738
+vær 7738
+igh 7723
+eri 7684
+vor 7669
+ngs 7609
+orm 7607
+ale 7580
+ang 7540
+eli 7441
+str 7435
+ssi 7430
+ker 7413
+kal 7342
+kan 7320
+ans 7306
+_op 7271
+vis 7262
+_un 7256
+sio 7254
+ege 7233
+tal 7142
+før 7123
+mmi 7100
+em_ 7019
+_bl 6957
+åde 6865
+iti 6855
+dle 6843
+tni 6828
+_pa 6782
+_ge 6712
+ag_ 6666
+ndr 6626
+_væ 6623
+sen 6586
+_så 6583
+dig 6562
+bes 6500
+lag 6461
+_ov 6448
+red 6435
+lin 6431
+dre 6409
+ved 6325
+sam 6318
+par 6284
+bet 6246
+ve_ 6237
+_se 6234
+est 6223
+_la 6213
+ill 6205
+ide 6125
+on_ 6109
+fre 6086
+tag 6083
+nes 6043
+_di 5942
+_må 5910
+lit 5909
+lde 5898
+rbe 5884
+råd 5866
+ven 5815
+sse 5776
+ers 5745
+var 5666
+_ta 5600
+ns_ 5544
+st_ 5538
+_gr 5521
+tat 5501
+kel 5480
+ogs 5449
+ten 5440
+min 5423
+gså 5390
+ekt 5388
+sla 5380
+_tr 5376
+han 5374
+ndl 5355
+ame 5318
+fra 5314
+rem 5301
+rla 5286
+reg 5266
+ate 5254
+is_ 5251
+all 5217
+arl 5188
+kti 5187
+old 5187
+hr_ 5178
+_hr 5176
+_fø 5112
+_sp 5086
+rt_ 5079
+dt_ 5023
+tiv 5019
+oli 5011
+des 5003
+rma 4963
+lt_ 4909
+ra_ 4909
+tis 4889
+rke 4867
+alt 4846
+tra 4828
+udv 4811
+mål 4804
+tid 4800
+sk_ 4780
+el_ 4779
+ble 4764
+fte 4744
+ist 4744
+_no 4735
+kni 4733
+tem 4733
+hol 4713
+rst 4688
+lam 4662
+gel 4654
+rde 4617
+gru 4609
+arb 4586
+ejd 4545
+ort 4545
+emm 4540
+bej 4528
+dis 4518
+_li 4479
+gør 4467
+pol 4451
+orb 4435
+sti 4427
+esk 4361
+nsk 4339
+ænd 4324
+rsl 4308
+opæ 4287
+_va 4281
+bli 4247
+_fa 4238
+mod 4205
+me_ 4185
+æis 4185
+pæi 4180
+hvi 4166
+gge 4114
+art 4105
+_fi 4050
+_po 4045
+ndi 4042
+ets 4036
+rli 4022
+_da 4018
+_ku 4010
+kab 3991
+hvo 3978
+amm 3963
+tor 3924
+mel 3909
+sto 3868
+hen 3867
+nst 3866
+giv 3857
+lev 3847
+nog 3840
+ems 3831
+ele 3804
+les 3797
+_mo 3794
+opa 3774
+ørg 3774
+vet 3746
+ør_ 3744
+elt 3707
+ts_ 3707
+ber 3705
+dem 3704
+gan 3699
+are 3691
+edl 3676
+_ar 3649
+ken 3639
+ise 3633
+dvi 3632
+_vo 3607
+stø 3590
+lli 3585
+tik 3581
+fin 3576
+rig 3574
+_el 3567
+val 3566
+gti 3562
+dri 3558
+gsm 3549
+_ef 3545
+ite 3534
+lut 3525
+akt 3522
+tæn 3508
+små 3486
+dst 3482
+liv 3458
+spø 3456
+nds 3445
+pør 3441
+led 3402
+eks 3396
+kun 3386
+pa_ 3386
+jde 3376
+her 3375
+ad_ 3374
+dni 3373
+nat 3371
+kri 3370
+ffe 3344
+run 3334
+bru 3327
+fæl 3325
+yde 3313
+rti 3288
+sær 3279
+nal 3261
+ess 3252
+nem 3250
+sid 3234
+sik 3226
+lge 3222
+ål_ 3187
+vid 3175
+rel 3165
+_kr 3153
+sæt 3133
+int 3128
+per 3125
+kte 3113
+sst 3113
+hel 3112
+gle 3102
+rat 3100
+eds 3098
+rgs 3074
+sel 3069
+rre 3048
+ons 3046
+tro 3037
+ænk 3037
+ran 3031
+ppe 3030
+mar 3026
+tel 3023
+ert 3003
+rug 2996
+uni 2990
+meg 2978
+slu 2954
+esl 2919
+mul 2914
+_na 2913
+eve 2904
+att 2902
+os_ 2901
+rge 2895
+rdi 2879
+_gø 2875
+tur 2873
+tti 2858
+in_ 2857
+ik_ 2843
+orh 2843
+rfo 2831
+_fæ 2828
+eft 2819
+kla 2803
+omr 2799
+sfo 2793
+ris 2792
+mrå 2788
+erf 2787
+dli 2783
+tre 2780
+_rå 2779
+nt_ 2778
+må_ 2758
+org 2747
+hav 2729
+dan 2726
+ona 2725
+ali 2707
+syn 2707
+pri 2699
+agt 2685
+_ny 2680
+kt_ 2679
+dag 2676
+nu_ 2676
+_or 2675
+od_ 2668
+_br 2657
+let 2656
+tan 2646
+ørs 2644
+_ne 2641
+uli 2637
+eu_ 2631
+læg 2628
+_mu 2620
+ærk 2614
+ave 2608
+mil 2608
+æll 2585
+ld_ 2582
+sat 2578
+sva 2572
+gra 2563
+_år 2559
+abe 2557
+ndt 2557
+nis 2555
+gte 2552
+rsk 2547
+_ga 2535
+tli 2533
+nio 2531
+nkt 2504
+_æn 2499
+ket 2487
+len 2483
+ast 2480
+id_ 2461
+sag 2456
+elv 2451
+vir 2433
+_nå 2428
+etæ 2426
+oge 2424
+nce 2415
+irk 2412
+lad 2409
+_os 2408
+stå 2407
+øde 2404
+træ 2398
+ier 2395
+nse 2393
+vig 2392
+ude 2378
+ant 2363
+omi 2357
+jer 2354
+oll 2353
+ram 2347
+_bø 2337
+nsi 2335
+ætt 2321
+_ba 2319
+alg 2311
+kra 2310
+ikl 2303
+nkn 2300
+vik 2296
+bør 2281
+tøt 2274
+unk 2274
+rek 2272
+øtt 2266
+ine 2265
+_ek 2261
+_få 2261
+nve 2258
+ted 2250
+åle 2246
+_fl 2236
+_sy 2230
+_gi 2228
+_nu 2225
+ode 2224
+æng 2224
+æld 2220
+egi 2203
+mid 2202
+dva 2201
+_ho 2199
+gsf 2194
+_kl 2189
+går 2188
+lar 2180
+sin 2177
+ald 2164
+dta 2162
+_pe 2155
+udg 2144
+ien 2142
+ina 2142
+_go 2133
+idl 2131
+kre 2128
+rte 2124
+bed 2122
+pun 2115
+aft 2110
+net 2110
+ytt 2109
+ial 2101
+_næ 2099
+lke 2099
+ade 2097
+bin 2096
+_hø 2094
+_lo 2093
+_bi 2092
+dfø 2088
+_nø 2085
+når 2082
+ges 2080
+ire 2078
+eme 2074
+eni 2073
+ids 2067
+ntr 2058
+itu 2055
+ono 2053
+edr 2051
+ær_ 2050
+_le 2049
+god 2045
+_to 2042
+øko 2032
+van 2024
+nom 2017
+skr 2004
+lis 2003
+rbi 1990
+føl 1989
+beh 1984
+ked 1984
+ure 1975
+sit 1974
+rag 1973
+un_ 1969
+øje 1966
+kol 1961
+rme 1956
+utn 1956
+iv_ 1948
+ægg 1946
+spe 1944
+vad 1938
+sni 1936
+tri 1936
+hva 1932
+nke 1930
+_bo 1926
+spr 1925
+ærd 1925
+mss 1917
+rit 1915
+kli 1911
+ud_ 1907
+pla 1904
+nød 1901
+ukt 1899
+nta 1897
+cen 1894
+erh 1891
+øge 1887
+afs 1877
+tru 1868
+fri 1845
+ini 1842
+sky 1840
+upp 1838
+rod 1836
+_øk 1833
+ræn 1830
+tyd 1819
+rak 1818
+_sæ 1814
+_fu 1811
+dsk 1809
+ete 1806
+ont 1797
+ntl 1792
+bek 1787
+obl 1784
+mær 1776
+fer 1774
+ins 1774
+fat 1769
+eta 1764
+idt 1763
+bor 1758
+dir 1756
+rog 1755
+søg 1755
+øns 1749
+efo 1745
+beg 1741
+_do 1732
+ils 1725
+ses 1717
+raf 1715
+rks 1713
+ogl 1712
+ilk 1709
+rol 1706
+_bu 1694
+rup 1694
+_ra 1688
+eje 1685
+mig 1683
+por 1680
+sku 1680
+uge 1680
+dve 1678
+pe_ 1677
+spo 1668
+rob 1666
+olk 1660
+_hu 1659
+hve 1659
+cer 1658
+fru 1657
+soc 1657
+lov 1655
+oci 1655
+ølg 1646
+rho 1644
+_te 1641
+edt 1639
+_im 1637
+ark 1636
+unn 1636
+nan 1631
+nti 1628
+jen 1625
+emt 1622
+mpe 1622
+_gå 1620
+cia 1617
+ora 1617
+ori 1604
+erv 1603
+op_ 1600
+enc 1598
+enh 1594
+ru_ 1594
+pen 1592
+fun 1591
+_dr 1587
+fol 1587
+evi 1584
+mt_ 1570
+ækk 1570
+era 1562
+rs_ 1557
+ogr 1554
+vel 1554
+leg 1553
+ror 1553
+ral 1551
+nye 1549
+igg 1547
+_pl 1535
+ev_ 1535
+di_ 1534
+ika 1530
+met 1528
+to_ 1519
+_of 1517
+onk 1511
+ilj 1505
+roc 1503
+præ 1502
+uds 1501
+udt 1497
+teg 1496
+oce 1489
+ødv 1488
+nsy 1486
+_ri 1485
+gne 1483
+ned 1483
+nli 1482
+ult 1480
+lik 1478
+yn_ 1475
+_øn 1468
+ræk 1465
+ikr 1461
+mst 1451
+kso 1450
+tes 1450
+egr 1444
+rid 1443
+gsp 1441
+bud 1440
+bel 1439
+sis 1437
+løs 1435
+ilf 1434
+fle 1433
+ye_ 1432
+bev 1428
+fal 1425
+høj 1425
+_lø 1420
+tyr 1419
+ari 1416
+rdn 1415
+ynd 1406
+dde 1395
+egn 1394
+opf 1394
+rie 1393
+_kv 1386
+off 1384
+rik 1384
+ssæ 1381
+tin 1380
+uti 1377
+fas 1374
+_læ 1372
+sme 1372
+vin 1365
+lta 1362
+åbe 1362
+bil 1354
+je_ 1353
+omh 1352
+yst 1343
+nit 1342
+idi 1339
+_ty 1331
+kat 1331
+tje 1331
+mød 1329
+æse 1326
+ful 1323
+erl 1320
+tør 1317
+sek 1316
+_sv 1315
+eml 1303
+dsp 1302
+ane 1300
+emo 1296
+ety 1296
+ljø 1296
+kul 1294
+såd 1290
+åda 1290
+odu 1288
+erd 1287
+drø 1286
+da_ 1281
+jds 1281
+ltn 1279
+dra 1277
+gio 1276
+uld 1275
+_pu 1274
+fti 1274
+tak 1269
+bef 1267
+få_ 1267
+måd 1263
+nel 1261
+sko 1261
+atu 1256
+etn 1255
+rve 1255
+græ 1252
+kræ 1250
+eho 1243
+_su 1239
+emf 1239
+tit 1238
+tab 1237
+eng 1232
+ået 1231
+mfø 1229
+amt 1228
+lid 1227
+_ak 1223
+emn 1222
+top 1221
+_hå 1220
+anv 1220
+iel 1220
+rhe 1220
+ili 1218
+hør 1215
+sor 1213
+isi 1212
+lv_ 1210
+igs 1208
+imi 1208
+sie 1206
+ama 1203
+vej 1203
+_gl 1201
+æde 1201
+dar 1193
+log 1193
+ani 1192
+bag 1189
+ørt 1189
+rha 1187
+ssk 1185
+ben 1184
+vne 1183
+_s_ 1182
+it_ 1182
+orv 1180
+_ad 1174
+stæ 1171
+dsa 1170
+nsv 1164
+erk 1163
+oms 1160
+cip 1159
+tår 1158
+adi 1155
+eva 1152
+ks_ 1152
+rbr 1144
+nci 1142
+sty 1139
+tek 1139
+æft 1137
+odt 1133
+anl 1131
+try 1130
+rsø 1129
+mhe 1128
+ldt 1127
+mat 1124
+rts 1124
+gæl 1121
+skæ 1120
+inc 1119
+lst 1118
+rso 1115
+ats 1114
+eha 1109
+ryk 1107
+æve 1107
+ktu 1104
+afg 1099
+dom 1098
+ivi 1097
+kst 1094
+æns 1093
+esu 1089
+yrk 1089
+_is 1088
+mti 1088
+mli 1087
+igv 1086
+ann 1082
+dtr 1080
+kyt 1077
+lte 1077
+rør 1077
+fta 1075
+æst 1073
+sys 1071
+_eg 1069
+slå 1068
+dge 1063
+sål 1063
+tut 1060
+ank 1058
+nsp 1056
+ves 1056
+bar 1054
+lys 1053
+yld 1050
+mes 1049
+øst 1049
+ds_ 1047
+nyt 1045
+orl 1045
+gni 1044
+hov 1044
+okr 1044
+pre 1044
+opm 1043
+eto 1041
+be_ 1037
+set 1035
+utt 1033
+pek 1032
+_sl 1026
+rej 1025
+mok 1022
+gvi 1021
+tua 1020
+pli 1019
+ibe 1018
+ldn 1018
+ruk 1015
+ræs 1015
+_hj 1014
+uat 1011
+dlæ 1008
+ndn 1006
+kor 1005
+son 1005
+ndb 1003
+hæn 1000
+vni 1000
+fen 997
+rga 996
+ref 993
+ug_ 991
+ism 988
+ab_ 987
+gis 987
+edu 984
+rev 984
+ass 979
+ærl 975
+_yd 974
+dnu 973
+ksi 973
+rda 971
+duk 968
+abs 967
+aff 967
+dbr 966
+ost 966
+ævn 964
diff --git a/tika-core/src/main/resources/org/apache/tika/language/de.ngp b/tika-core/src/main/resources/org/apache/tika/language/de.ngp
new file mode 100644
index 0000000000..c8af0484d2
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/de.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+en_ 212612
+er_ 98528
+_de 85811
+ich 77459
+der 70583
+_di 70518
+die 69388
+ie_ 67971
+sch 56571
+ein 53912
+ch_ 53758
+_un 52654
+ung 50103
+che 45855
+nd_ 44410
+den 43865
+_da 41966
+cht 41763
+_be 39578
+gen 38128
+und 38106
+_ei 36321
+in_ 34380
+ng_ 34359
+ten 34283
+es_ 33601
+_au 33306
+_wi 31780
+_in 30781
+_zu 30678
+hen 30448
+_ge 30199
+on_ 28096
+nde 28026
+eit 27645
+ine 27612
+_vo 26131
+ver 25977
+ere 23829
+men 23322
+wir 23199
+ht_ 23170
+ent 23092
+ber 23063
+_we 23010
+lic 22696
+te_ 22547
+ion 22420
+_si 22298
+_ve 21928
+nen 20719
+it_ 20653
+ter 19791
+nge 19645
+ste 19037
+ese 18527
+isc 18191
+rde 18054
+ren 17925
+_mi 17599
+_an 17282
+ies 17035
+as_ 16836
+em_ 16828
+zu_ 16778
+her 16547
+mit 16540
+_er 16445
+_ko 16370
+run 16334
+lle 16293
+ist 16265
+ne_ 16251
+st_ 16035
+auf 15984
+_ha 15980
+ers 15463
+aus 15387
+ier 14586
+sen 14337
+ir_ 14331
+_so 14264
+rei 14034
+sse 14014
+für 13527
+aß_ 13516
+_fü 13464
+nte 13283
+ben 13251
+daß 13186
+ür_ 13142
+end 13019
+ige 12985
+vor 12973
+das 12972
+von 12898
+_ic 12743
+he_ 12692
+ges 12653
+ern 12573
+ach 12465
+bei 12431
+des 12271
+wer 12200
+_ni 12156
+_is 12089
+_st 11950
+and 11857
+_al 11768
+ert 11570
+omm 11562
+sic 11525
+len 11498
+ge_ 11405
+_re 11377
+_se 11228
+nic 11202
+eru 11090
+abe 11066
+kom 11050
+uch 11046
+_pr 11019
+ind 10872
+wei 10852
+_eu 10566
+_he 10564
+uf_ 10457
+erd 10409
+sta 10319
+_es 10313
+tig 10262
+tio 10247
+hte 10203
+hre 10019
+eur 9917
+ner 9909
+ser 9905
+ell 9828
+_me 9768
+sie 9765
+ens 9748
+iss 9720
+ech 9665
+age 9652
+_ab 9610
+uro 9599
+ege 9577
+_im 9551
+um_ 9504
+übe 9493
+nn_ 9394
+rop 9378
+_fr 9366
+oll 9332
+ngs 9308
+cha 9204
+_sc 9195
+se_ 9154
+dem 9078
+_en 9049
+re_ 9003
+mme 9000
+bes 8937
+auc 8928
+chl 8837
+ite 8774
+rn_ 8764
+wie 8744
+est 8732
+im_ 8662
+tli 8577
+de_ 8540
+lie 8522
+ati 8510
+err 8489
+all 8428
+eic 8415
+ang 8405
+rt_ 8376
+_üb 8359
+nt_ 8299
+rst 8116
+haf 8115
+rec 8067
+tel 7937
+mei 7917
+le_ 7887
+_na 7840
+tte 7823
+_um 7791
+an_ 7767
+hei 7712
+iti 7707
+eri 7651
+ric 7646
+uns 7638
+rau 7623
+ins 7567
+tun 7559
+ene 7556
+kei 7517
+ur_ 7503
+ssi 7480
+fra 7472
+ger 7447
+tra 7440
+mis 7425
+ede 7268
+_ma 7246
+aft 7238
+iel 7166
+fen 7065
+änd 7064
+pro 7039
+rag 7025
+lei 7007
+och 6998
+ei_ 6988
+alt 6974
+rte 6958
+mmi 6906
+lte 6905
+hal 6893
+at_ 6843
+gli 6829
+ied 6819
+sti 6809
+ame 6804
+sio 6720
+ord 6714
+ide 6691
+opä 6650
+ns_ 6649
+enn 6618
+sei 6568
+äis 6563
+päi 6560
+rge 6560
+eis 6559
+hme 6533
+tsc 6528
+ebe 6450
+ehr 6443
+wen 6434
+nne 6401
+etz 6367
+lt_ 6366
+ann 6319
+hr_ 6308
+_wa 6306
+ls_ 6301
+hab 6292
+_gr 6280
+ing 6273
+rsc 6227
+sin 6215
+_ih 6212
+ini 6144
+gt_ 6121
+als 6114
+ate 6027
+rbe 6007
+ehe 6006
+itt 6000
+eme 5984
+_hi 5953
+unt 5938
+for 5937
+lun 5917
+ig_ 5865
+erh 5831
+_pa 5818
+rat 5816
+ft_ 5799
+ts_ 5757
+par 5693
+nsc 5686
+ahr 5645
+rd_ 5591
+ete 5558
+lit 5524
+zie 5522
+et_ 5500
+eil 5483
+era 5474
+nts 5467
+leg 5465
+dar 5440
+sam 5429
+nis 5392
+spr 5383
+ien 5381
+ird 5359
+el_ 5349
+ele 5326
+str 5277
+gel 5254
+geb 5196
+rla 5173
+imm 5169
+ffe 5162
+_le 5139
+nse 5082
+hat 5052
+esc 5043
+lan 5033
+tei 4978
+sol 4971
+ant 4965
+_mö 4949
+nun 4947
+erf 4946
+nst 4940
+erb 4886
+ar_ 4875
+zus 4862
+gem 4840
+zur 4837
+one 4779
+egi 4753
+prä 4748
+nac 4721
+_ra 4707
+kon 4694
+reg 4639
+ort 4615
+us_ 4613
+chu 4535
+oli 4513
+org 4510
+zen 4503
+_no 4500
+_ka 4496
+_je 4479
+ihr 4472
+uss 4459
+geh 4458
+eut 4444
+elt 4443
+tis 4437
+_zw 4432
+wic 4430
+zei 4407
+anz 4406
+ran 4375
+arb 4336
+uß_ 4336
+hie 4327
+kan 4316
+erw 4308
+gun 4303
+pol 4302
+nie 4298
+rin 4296
+ale 4294
+_wo 4288
+hin 4273
+_nu 4256
+erl 4241
+räs 4201
+_bi 4187
+rr_ 4187
+sid 4185
+ass 4184
+ken 4173
+kti 4170
+ntr 4149
+äsi 4132
+_la 4128
+_ar 4125
+zun 4123
+lam 4065
+llt 4060
+arl 4058
+ntw 4058
+uni 4057
+geg 4056
+lag 4047
+so_ 4036
+han 4011
+ahm 4004
+ll_ 3999
+rch 3972
+aat 3969
+ess 3966
+gan 3963
+art 3954
+son 3936
+erg 3933
+taa 3923
+urc 3923
+ors 3914
+_po 3913
+tim 3911
+int 3900
+tre 3878
+tze 3856
+kt_ 3842
+erk 3833
+hne 3797
+amm 3774
+nig 3767
+tzt 3758
+set 3744
+ond 3741
+dur 3737
+tik 3735
+its 3728
+rit 3696
+rer 3658
+was 3645
+or_ 3616
+üss 3615
+rie 3613
+tet 3613
+nat 3609
+seh 3592
+hti 3590
+_kö 3581
+_du 3572
+ag_ 3565
+me_ 3557
+inn 3548
+nio 3548
+öch 3531
+dig 3528
+gru 3515
+_fo 3494
+_ja 3487
+kön 3479
+_ne 3468
+akt 3459
+_mü 3443
+tie 3437
+att 3429
+ise 3419
+tat 3407
+bet 3401
+ode 3371
+gew 3366
+vie 3358
+gie 3338
+önn 3312
+man 3303
+hts 3298
+ühr 3283
+_vi 3266
+ute 3263
+wor 3262
+etr 3254
+ndl 3254
+nah 3251
+füh 3243
+res 3234
+_mu 3219
+tzu 3211
+möc 3206
+itg 3193
+rli 3184
+chs 3176
+mer 3176
+ses 3164
+tät 3161
+eht 3157
+hli 3137
+lem 3113
+noc 3107
+eid 3104
+war 3102
+stä 3098
+nkt 3089
+chi 3082
+fin 3078
+chr 3075
+_ke 3069
+ler 3049
+ick 3032
+wel 3017
+erz 2992
+müs 2979
+ekt 2977
+ans 2974
+zum 2971
+neh 2964
+bed 2958
+tiv 2957
+eue 2952
+sel 2952
+ona 2943
+teh 2938
+rts 2935
+ndi 2932
+orm 2921
+tri 2909
+dan 2904
+län 2898
+ons 2894
+ehm 2889
+lin 2886
+ina 2885
+nal 2871
+tgl 2859
+itä 2857
+tan 2855
+muß 2846
+au_ 2840
+enz 2837
+_fi 2836
+rdn 2824
+dun 2797
+wis 2796
+nz_ 2789
+jah 2769
+wur 2769
+ik_ 2761
+kte 2754
+rke 2749
+nur 2744
+ali 2741
+_fe 2721
+abs 2720
+hau 2717
+is_ 2717
+be_ 2694
+nnt 2692
+htl 2688
+zt_ 2686
+usa 2675
+nem 2672
+ble 2670
+_te 2669
+nan 2665
+gef 2660
+rne 2659
+nze 2652
+_ze 2651
+igt 2651
+_ri 2648
+neu 2645
+rhe 2645
+sem 2641
+rha 2625
+jed 2617
+doc 2616
+_wu 2610
+unk 2590
+_sa 2571
+nti 2570
+rtr 2561
+sge 2555
+_li 2554
+_sp 2554
+_gl 2551
+chn 2548
+sun 2548
+ück 2544
+net 2543
+meh 2541
+fal 2538
+ara 2525
+hun 2517
+fol 2511
+_fa 2501
+inz 2491
+off 2489
+gke 2477
+gra 2476
+igk 2476
+urd 2474
+mög 2472
+olg 2472
+ank 2466
+fre 2465
+irt 2464
+kol 2449
+ive 2444
+ntl 2441
+_od 2440
+rre 2439
+sha 2439
+rac 2435
+ris 2433
+il_ 2426
+_ga 2424
+sag 2414
+san 2412
+ust 2405
+twi 2397
+eig 2382
+eso 2378
+sit 2360
+ieß 2359
+bar 2358
+nke 2355
+bez 2345
+hla 2344
+rze 2343
+ögl 2342
+fer 2338
+nes 2338
+deu 2337
+tro 2323
+_tr 2318
+_do 2317
+zwe 2312
+del 2310
+ßen 2307
+itu 2306
+enh 2304
+dam 2289
+inf 2272
+bew 2271
+bst 2269
+_lä 2268
+_gi 2260
+äge 2255
+al_ 2247
+opa 2242
+eds 2240
+lis 2233
+ckl 2230
+_ta 2225
+uen 2225
+chw 2221
+ena 2218
+rüc 2218
+dst 2213
+dli 2212
+gsa 2207
+bra 2199
+mal 2195
+gle 2192
+tsp 2179
+isi 2178
+zug 2170
+irk 2161
+ieg 2153
+lge 2152
+äch 2148
+usg 2139
+ial 2137
+sor 2137
+ssc 2135
+kun 2127
+_zi 2124
+alb 2124
+tz_ 2123
+bt_ 2114
+eln 2106
+ret 2096
+ähr 2094
+tes 2090
+fe_ 2085
+ßer 2075
+sbe 2068
+uti 2063
+fah 2051
+_mo 2047
+maß 2044
+utz 2044
+pun 2039
+nzi 2036
+gre 2035
+lls 2032
+las 2028
+ewe 2024
+_än 2022
+fun 2019
+_br 2016
+ili 2012
+erm 2010
+trä 2007
+ill 2006
+rif 2005
+hst 2004
+rwe 2003
+bil 2002
+abg 2001
+nsi 2001
+fte 2000
+rfo 1997
+pie 1992
+lig 1980
+chk 1977
+rti 1977
+pre 1975
+are 1967
+ami 1966
+min 1966
+mmt 1963
+am_ 1961
+ütz 1958
+_dr 1941
+bge 1941
+klu 1937
+igu 1927
+nsa 1926
+lch 1911
+obl 1910
+lau 1908
+hri 1906
+_ho 1901
+beg 1900
+uße 1897
+ema 1890
+mun 1890
+vol 1890
+lli 1888
+hru 1885
+chä 1883
+wäh 1881
+rob 1880
+_am 1872
+hke 1869
+gte 1854
+los 1847
+bin 1844
+_kl 1834
+tän 1834
+räg 1831
+rak 1830
+uer 1829
+stü 1828
+din 1821
+_wä 1817
+aue 1816
+_kr 1815
+sow 1803
+ahl 1795
+ufg 1792
+mt_ 1790
+els 1789
+rle 1784
+uge 1782
+tur 1781
+mmu 1777
+rfa 1776
+kra 1770
+lb_ 1768
+ari 1761
+mac 1756
+hrt 1753
+ibt 1745
+ieh 1745
+ssa 1744
+ät_ 1741
+_ak 1733
+rkl 1733
+nhe 1732
+ark 1730
+soz 1730
+nha 1728
+ltu 1723
+ani 1719
+hle 1715
+ont 1710
+ozi 1706
+ck_ 1702
+nzu 1698
+tru 1693
+per 1690
+hl_ 1688
+sat 1688
+un_ 1688
+fes 1684
+fri 1676
+heu 1676
+egt 1673
+iff 1668
+rkt 1666
+elb 1664
+rig 1664
+stu 1658
+fti 1641
+äre 1640
+bri 1637
+zia 1633
+tüt 1631
+bür 1618
+fts 1616
+ndu 1614
+spi 1603
+rga 1602
+beh 1597
+gro 1581
+pra 1581
+ln_ 1577
+pri 1577
+eni 1574
+rbr 1571
+egr 1569
+tag 1566
+zwi 1565
+ßna 1561
+dnu 1560
+pa_ 1558
+fas 1556
+ats 1554
+aßn 1551
+tem 1550
+_wü 1543
+mat 1541
+kli 1540
+kri 1540
+ukt 1539
+esa 1536
+quo 1530
+wür 1530
+ogr 1528
+nds 1521
+edi 1519
+hör 1519
+nom 1519
+bli 1514
+woh 1514
+htu 1513
+äft 1513
+roß 1512
+ürd 1512
+äng 1505
+det 1503
+rum 1498
+edo 1496
+gib 1495
+ker 1491
+enk 1489
+mar 1484
+ut_ 1484
+da_ 1478
+dne 1478
+gio 1477
+_bü 1473
+kla 1469
+rs_ 1469
+_eb 1467
+_ob 1465
+ftl 1465
+itr 1465
+ihn 1464
+tür 1459
+ral 1457
+bie 1456
+ika 1456
+two 1455
+tor 1454
+ewi 1452
+ürg 1450
+hem 1447
+let 1445
+rem 1443
+nre 1442
+ram 1441
+iet 1436
+nsp 1435
+ßt_ 1435
+ven 1434
+grü 1432
+ike 1430
+squ 1430
+aff 1419
+leb 1415
+gs_ 1410
+rog 1409
+bek 1403
+rol 1401
+agt 1400
+spe 1397
+swe 1397
+twe 1390
+mpf 1388
+eih 1386
+eng 1385
+erp 1378
+nfa 1376
+amt 1374
+hil 1371
+örd 1370
+weg 1369
+atz 1356
+lfe 1355
+oße 1352
+mic 1349
+ref 1346
+mte 1345
+ast 1333
+sar 1333
+ezi 1330
+geo 1330
+_ba 1329
+eug 1324
+_et 1323
+rma 1320
+cho 1319
+uo_ 1318
+ohl 1314
+wär 1314
+eu_ 1312
+rtu 1312
+eor 1308
+häf 1306
+ätz 1306
+nft 1304
+tit 1302
+wes 1299
+rdi 1298
+ilf 1293
+hlu 1291
+the 1288
+zte 1288
+_ku 1280
+tge 1277
+ori 1273
+dis 1268
+cke 1266
+tär 1266
+mil 1265
+rwa 1265
+zah 1265
+nwe 1256
+umw 1253
+ieb 1251
+rrn 1250
+izi 1249
+bis 1248
+owi 1248
+ibe 1247
+fli 1246
+ehö 1244
+rah 1240
+ums 1240
+mwe 1239
+eno 1235
+llu 1235
+nve 1233
+ze_ 1230
+ohn 1228
+nit 1224
+tt_ 1223
+nfo 1222
+ett 1218
+ost 1216
+esh 1215
+ruc 1215
+daf 1213
+yst 1213
+_ls 1212
+lsq 1212
+_fl 1209
+eha 1207
+ile 1206
+sys 1206
+ume 1200
+pfe 1199
+lbs 1196
+kel 1195
+rme 1194
+bef 1193
+efü 1189
+esi 1188
+hof 1188
+dri 1185
+zeu 1184
+ebi 1182
+emo 1180
+nma 1175
+ade 1174
+inb 1174
+tin 1173
+okr 1169
+rf_ 1166
+ve_ 1166
+om_ 1165
+gab 1164
+lts 1164
+ush 1164
+_nä 1163
+eff 1160
+lsc 1159
+hwe 1158
+gut 1157
+sis 1147
+_ch 1146
+hut 1143
+eif 1140
+enr 1136
+not 1133
+suc 1132
+auß 1126
+eib 1123
+nbe 1122
+ünd 1121
+_or 1119
+_th 1118
+rmi 1115
+get 1114
+lar 1112
+spa 1112
+nau 1111
+tal 1108
+lär 1107
diff --git a/tika-core/src/main/resources/org/apache/tika/language/el.ngp b/tika-core/src/main/resources/org/apache/tika/language/el.ngp
new file mode 100644
index 0000000000..d6df908589
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/el.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+αι_ 73292
+_χ_ 72116
+_τη 67413
+_κα 66823
+_το 61620
+ου_ 58182
+να_ 51915
+ης_ 50982
+_πρ 50886
+και 44545
+_να 42766
+ων_ 42218
+ια_ 39929
+_στ 38665
+ην_ 37376
+την 36472
+με_ 36145
+_πο 35813
+ει_ 35673
+το_ 34708
+ση_ 33913
+_επ 32206
+_απ 31689
+τικ 31116
+του 31099
+της 29811
+ας_ 29544
+_συ 29493
+τα_ 29344
+_με 26939
+_αν 26136
+προ 25989
+_δι 25857
+ις_ 25679
+ία_ 25305
+_η_ 24782
+ες_ 24638
+των 24440
+που 24082
+_γι 22457
+_αυ 22034
+για 21684
+αυτ 21185
+ών_ 20933
+_εί 20414
+ική 20053
+τη_ 20028
+_τω 19621
+επι 19352
+στη 18905
+ής_ 18677
+ται 17329
+_θα 16927
+ματ 16894
+ος_ 16877
+τι_ 16833
+θα_ 16699
+ές_ 16670
+δια 16531
+υς_ 16512
+σει 16489
+ους 16463
+είν 16459
+κατ 16414
+οι_ 16395
+ως_ 16295
+εί_ 16276
+σε_ 16078
+κή_ 16060
+ον_ 15967
+στο 15711
+_υπ 15611
+πολ 15525
+οπο 15499
+_δε 15021
+σης 14828
+ναι 14699
+ίνα 14581
+ουμ 14531
+υμε 14346
+_ευ 14263
+από 14186
+_πα 14039
+ότι 14014
+_σε 13929
+τις 13852
+παρ 13503
+ουν 13481
+_τα 13419
+υν_ 13392
+_ότ 13385
+ατα 13313
+εν_ 13301
+συν 13188
+περ 13128
+ετα 13105
+πό_ 13057
+τρο 12829
+ιο_ 12789
+_οι 12740
+μα_ 12475
+μέν 12474
+ντα 12467
+_πε 12327
+ηση 12080
+_τι 12050
+ροπ 11987
+_έ_ 11888
+ερι 11865
+κά_ 11796
+_εν 11735
+απο 11708
+ιστ 11698
+τον 11604
+ευρ 11565
+ικά 11562
+δεν 11364
+_ει 11261
+πει 11098
+πρό 11044
+εις 11034
+_κο 10943
+τερ 10760
+αν_ 10723
+τε_ 10698
+ανα 10526
+τό_ 10388
+ίας 10369
+αντ 10365
+ικό 10049
+οιν 9986
+_μι 9981
+πιτ 9846
+ρα_ 9784
+κοι 9749
+φορ 9615
+ού_ 9464
+συμ 9361
+ημα 9284
+στι 9263
+έπε 9222
+κής 9207
+ισμ 9165
+ποί 9103
+ωση 9064
+υτό 9009
+οντ 8911
+μια 8832
+δικ 8605
+σου 8568
+ένα 8537
+ρισ 8473
+κό_ 8448
+_εκ 8395
+ιτρ 8346
+ικο 8331
+στα 8304
+στε 8266
+ούν 8262
+τά_ 8261
+ρωπ 8246
+_ου 8210
+_αρ 8180
+ρέπ 8012
+_οπ 7931
+τητ 7885
+_μέ 7831
+αστ 7785
+πορ 7719
+μετ 7665
+ροσ 7661
+νου 7648
+πρέ 7532
+ολο 7516
+υρω 7488
+σία 7480
+ότη 7463
+ωπα 7339
+ατο 7335
+_εξ 7266
+_θέ 7253
+νομ 7248
+_έν 7244
+ντι 7234
+_μα 7225
+ικα 7136
+οπή 7088
+αϊκ 7081
+ποι 7043
+ύν_ 6974
+μπο 6902
+επί 6861
+ός_ 6816
+παϊ 6811
+_πλ 6799
+λογ 6789
+ατά 6787
+ολι 6777
+_ο_ 6775
+τασ 6735
+αλλ 6679
+θεσ 6665
+κών 6651
+εια 6594
+νικ 6582
+θεί 6549
+ασί 6533
+ρά_ 6490
+ατι 6481
+κές 6440
+υτή 6360
+τή_ 6359
+ίες 6350
+αση 6291
+αφο 6286
+σημ 6261
+_μπ 6244
+αρα 6220
+νο_ 6177
+νει 6176
+υπο 6121
+ητα 6120
+άλλ 6114
+ήσε 6062
+_τρ 6049
+_κά 6010
+ινο 6003
+_σ_ 6002
+ικέ 5940
+ικώ 5913
+νων 5777
+όσο 5754
+ίου 5748
+καν 5668
+_θε 5583
+κού 5580
+_ση 5573
+τος 5571
+ώς_ 5553
+βου 5550
+ούμ 5535
+ετι 5498
+ουλ 5496
+πως 5491
+μας 5486
+πισ 5471
+λιτ 5457
+οτε 5443
+ποτ 5440
+μικ 5433
+_αλ 5380
+ιτι 5369
+ιση 5343
+ερα 5333
+ύρι 5289
+ύμε 5282
+ταν 5183
+ρού 5121
+_δη 5079
+_κρ 5077
+ρία 5071
+ορά 5067
+τελ 5063
+_ή_ 5059
+λά_ 5028
+ρο_ 5021
+τού 4969
+γμα 4959
+ελε 4916
+λου 4886
+_όλ 4882
+_ετ 4878
+νισ 4864
+ρατ 4843
+εδρ 4822
+_κύ 4786
+μεν 4786
+ότε 4779
+οβο 4761
+πή_ 4750
+καθ 4730
+ένο 4724
+μερ 4719
+_αφ 4716
+λει 4710
+λλο 4697
+σο_ 4684
+λευ 4661
+νωσ 4657
+υνα 4646
+ρικ 4636
+ριο 4628
+κύρ 4613
+ργα 4602
+εργ 4564
+λα_ 4555
+εων 4553
+ρου 4498
+_μο 4489
+τησ 4486
+εση 4475
+ομι 4472
+_κυ 4433
+κρι 4424
+άσε 4313
+ορι 4295
+βού 4281
+σεω 4276
+υμβ 4246
+λλά 4236
+μη_ 4210
+τών 4199
+ανά 4197
+δημ 4179
+ερο 4173
+νη_ 4173
+ομέ 4167
+_ορ 4163
+ριε 4152
+μού 4145
+ίνε 4125
+απα 4091
+σμο 4088
+οικ 4087
+_ερ 4047
+τηρ 4044
+_ακ 4032
+ονο 4029
+μεί 4020
+ήμα 4018
+τάσ 3997
+υνε 3994
+_ελ 3968
+οστ 3966
+τας 3963
+_σύ 3947
+ούλ 3935
+_όπ 3934
+ιών 3934
+ραγ 3916
+τομ 3914
+τεί 3884
+ουρ 3880
+ιε_ 3877
+_γε 3869
+γία 3859
+λόγ 3858
+ρος 3846
+θέσ 3844
+ϊκή 3842
+ορο 3830
+ιμέ 3829
+πάρ 3827
+ύλι 3794
+καλ 3788
+ορε 3778
+νοβ 3752
+τήσ 3752
+κει 3746
+ολύ 3718
+_ό_ 3716
+ιας 3688
+ρόε 3687
+ίς_ 3686
+όεδ 3685
+μου 3684
+διά 3683
+αρ_ 3670
+_νο 3668
+ρει 3660
+σω_ 3642
+λιο 3639
+σμό 3633
+ιδι 3626
+_σα 3624
+_πι 3611
+αρά 3604
+θού 3602
+νες 3602
+ρεί 3581
+λη_ 3568
+κον 3557
+γρα 3549
+πίσ 3535
+στό 3525
+_εμ 3519
+_ώρ 3518
+αμε 3511
+ρε_ 3505
+σα_ 3496
+πρα 3480
+ύτε 3478
+_νω 3472
+ύς_ 3472
+δρε 3471
+ανο 3467
+_έκ 3456
+ίο_ 3443
+οία 3440
+τές 3431
+σμα 3426
+_δυ 3424
+ευτ 3410
+φέρ 3408
+υπά 3396
+ξη_ 3393
+ούς 3375
+_ισ 3323
+ιακ 3319
+συγ 3316
+ρώπ 3303
+δυν 3294
+τες 3292
+ρες 3288
+φων 3268
+ουσ 3258
+_άλ 3255
+_λό 3241
+υλί 3239
+διε 3237
+άτω 3220
+εξα 3189
+όνο 3189
+ίζο 3156
+εία 3155
+ροτ 3146
+μασ 3138
+μαν 3123
+μάτ 3122
+κυρ 3120
+ρίζ 3119
+ώσε 3117
+υρώ 3096
+ήσο 3085
+λύ_ 3071
+_τε 3070
+αγμ 3066
+μό_ 3066
+τημ 3066
+ιότ 3063
+ποσ 3058
+επε 3043
+_ασ 3039
+νία 3009
+_πω 3004
+διο 3003
+ρήσ 3003
+εκτ 3002
+νον 2999
+ρότ 2998
+_ως 2996
+έσε 2994
+όπο 2986
+μβο 2984
+ορί 2979
+ίτε 2974
+τοι 2964
+ότα 2953
+ύσε 2946
+λεί 2933
+λικ 2928
+ιατ 2927
+ταξ 2917
+βασ 2915
+_μό 2910
+ψη_ 2901
+ημε 2899
+ίση 2895
+μία 2894
+στή 2894
+υρί 2894
+θηκ 2890
+άρ_ 2874
+ίζε 2863
+_αγ 2861
+μεγ 2857
+ζου 2849
+_βο 2847
+τιμ 2845
+ωνι 2842
+ρη_ 2841
+εσμ 2838
+ερί 2837
+νατ 2836
+_ομ 2833
+κρα 2833
+ράτ 2822
+ήθε 2821
+λον 2816
+όπω 2810
+μόν 2805
+ευθ 2803
+όλο 2801
+πο_ 2790
+λο_ 2786
+είς 2785
+αρμ 2782
+όν_ 2776
+ήτη 2771
+ατε 2763
+κθε 2753
+μέλ 2748
+γασ 2743
+ούσ 2742
+υση 2731
+ένω 2725
+κολ 2719
+θέμ 2718
+κρά 2710
+αιρ 2709
+ραμ 2695
+ρησ 2692
+ντο 2688
+τόσ 2685
+_όσ 2680
+αδι 2674
+έμα 2668
+μφω 2655
+ογι 2655
+_εγ 2651
+ανε 2644
+ειρ 2637
+υγκ 2637
+ρον 2632
+ζητ 2627
+υστ 2623
+έκθ 2621
+_γν 2618
+σμέ 2616
+κόμ 2609
+_ωρ 2596
+υργ 2581
+έα_ 2575
+οίο 2568
+όμε 2566
+ροφ 2565
+ασφ 2561
+νός 2558
+ράσ 2558
+ιες 2557
+ζήτ 2549
+λίο 2549
+εντ 2546
+αφέ 2542
+υμφ 2533
+στρ 2527
+_ιδ 2522
+πικ 2522
+ειτ 2520
+γικ 2513
+ρωτ 2511
+πής 2510
+οδο 2509
+οί_ 2504
+οβλ 2497
+ινω 2494
+τήρ 2491
+άστ 2487
+ονι 2481
+έρο 2467
+ωρί 2467
+ροβ 2466
+_όμ 2464
+ακο 2462
+ναν 2456
+οιο 2454
+μμα 2453
+σια 2452
+υτο 2444
+τρα 2438
+θετ 2436
+ληρ 2429
+ωστ 2428
+ιαφ 2420
+εισ 2415
+εμπ 2411
+τεύ 2411
+ίνο 2408
+κασ 2407
+παν 2405
+_κ_ 2395
+κε_ 2388
+άδε 2383
+αρι 2382
+ίων 2379
+ενο 2378
+ρώτ 2375
+κεί 2372
+άπο 2367
+εωρ 2365
+ζει 2361
+υσι 2357
+ειδ 2356
+νετ 2355
+βάλ 2342
+ρια 2342
+ροκ 2342
+ρασ 2338
+_τέ 2337
+ρών 2329
+_ρη 2321
+κότ 2316
+ονό 2313
+ημο 2311
+συζ 2309
+ώρα 2307
+άθε 2300
+πλη 2300
+ρετ 2300
+ιασ 2298
+ακό 2295
+ητή 2290
+οτι 2284
+όμα 2280
+ιου 2276
+γνω 2263
+στά 2261
+_νέ 2258
+_τό 2254
+ναφ 2251
+_εδ 2248
+σιο 2243
+αγω 2242
+ενι 2235
+έρε 2229
+γορ 2214
+σκο 2213
+ιαδ 2205
+ζετ 2204
+υτέ 2203
+υπό 2193
+ώπη 2193
+νθρ 2190
+αίτ 2189
+εθν 2189
+ογί 2174
+ριμ 2174
+πτυ 2172
+ελα 2168
+άς_ 2165
+σας 2163
+_εφ 2159
+γον 2159
+πλα 2158
+είτ 2152
+ερη 2152
+λισ 2147
+ηκε 2146
+_βα 2138
+σήμ 2137
+_οδ 2135
+γκε 2134
+_δρ 2129
+ένε 2129
+άνο 2127
+υνο 2126
+μβά 2123
+_ρό 2119
+έλο 2119
+άνε 2116
+γάλ 2116
+αίν 2115
+έλε 2110
+ρόν 2107
+ψηφ 2106
+ρίσ 2103
+έτο 2087
+ατό 2084
+ετά 2080
+_ολ 2072
+μως 2071
+έση 2068
+τισ 2068
+λού 2066
+ριβ 2066
+ερε 2064
+θελ 2064
+μέσ 2061
+ναλ 2060
+σύν 2052
+μελ 2045
+είμ 2044
+έλη 2041
+αλύ 2035
+_αξ 2033
+λύτ 2033
+νερ 2030
+νησ 2029
+ιτα 2028
+ίσε 2023
+νε_ 2010
+αιτ 2008
+ίσο 2006
+ένη 2005
+ρώ_ 2001
+οδη 1995
+ομά 1992
+γο_ 1991
+σον 1988
+άση 1986
+νότ 1986
+ατη 1984
+όμω 1980
+ισ_ 1979
+λλα 1978
+στώ 1977
+σότ 1974
+ομο 1969
+θει 1964
+ηθε 1962
+σαν 1962
+άτη 1959
+_σή 1958
+αξι 1956
+_ήθ 1950
+ατί 1950
+τέλ 1941
+_σο 1940
+ακρ 1940
+σκε 1939
+ξει 1935
+_μη 1932
+ολλ 1924
+σφα 1921
+_βρ 1916
+θέλ 1914
+ανθ 1911
+οφο 1908
+λαί 1906
+ευσ 1905
+δο_ 1903
+τοπ 1898
+_ρε 1896
+ιμε 1895
+ρακ 1894
+δει 1893
+_άρ 1891
+ωνί 1891
+εγά 1888
+λοι 1888
+ρμο 1884
+αμμ 1882
+ρων 1881
+σιμ 1881
+ινή 1878
+μαι 1877
+δηγ 1876
+λαμ 1872
+ιμο 1867
+επα 1866
+ζον 1865
+μάδ 1865
+αίσ 1864
+_αμ 1856
+_πά 1847
+ακτ 1841
+ούτ 1835
+τρό 1832
+ετε 1824
+ντί 1823
+άλε 1822
+γή_ 1822
+ενδ 1819
+οκρ 1818
+υλε 1818
+κεκ 1811
+εκρ 1809
+ίσι 1804
+πρά 1802
+λες 1801
+κάν 1800
+αμβ 1796
+είο 1795
+οθε 1791
+νοι 1788
+οίη 1787
+θερ 1785
+ίησ 1784
+εφα 1783
+μιο 1783
+_ζη 1778
+ώρε 1775
+φερ 1772
+αρο 1768
+ποδ 1767
+γου 1765
+υξη 1763
+σσό 1760
+ογρ 1759
+ζω_ 1758
+φαλ 1755
+αθε 1754
+βάσ 1753
+μέρ 1753
+οια 1750
+ριν 1750
+θεω 1745
+λος 1745
+λλε 1743
+ημι 1741
+όγο 1739
+κτι 1738
+ώμα 1737
+υπε 1736
+_σκ 1733
+ρόπ 1733
+κάπ 1731
+_δύ 1730
+ίδι 1713
+υντ 1709
+τής 1708
+υτά 1708
+άν_ 1699
+αλι 1699
+ήμε 1698
+ράγ 1695
+_φο 1691
+ανι 1689
+πε_ 1689
+άμε 1684
+ομα 1683
+ισσ 1681
+παι 1680
+γαλ 1679
+_βά 1678
+ηρί 1674
+ητι 1669
+πίτ 1657
+κρί 1655
+γισ 1653
+νω_ 1649
+πρώ 1645
+ητο 1644
+σή_ 1643
+δα_ 1641
+λεσ 1641
+ελέ 1639
+ίμα 1638
+λλη 1634
+εγκ 1633
+ενό 1632
+δή_ 1628
+νοτ 1625
+ειμ 1621
+μέα 1620
+ρόκ 1620
+εδο 1617
+τρέ 1613
+τατ 1612
+λησ 1609
+βλη 1606
+αγο 1605
+γει 1604
+_κό 1603
+μισ 1602
+έρω 1601
+ηρο 1601
+όντ 1599
+ποφ 1595
+τότ 1594
+ορέ 1592
+τυξ 1591
+ίζω 1588
+ραφ 1588
+ποκ 1584
+όκε 1584
+πάν 1583
+ύντ 1582
+άδα 1579
+λημ 1579
+ξύ_ 1579
+μβα 1578
+_πό 1576
+ρεσ 1575
+αξύ 1574
+πη_ 1573
+γίν 1571
+ασμ 1570
+ριθ 1568
+_γί 1564
+άζε 1564
+ομί 1561
+_λα 1555
+ιγμ 1555
+ιάσ 1554
+κιν 1554
+ήρι 1552
+νση 1552
+ρωσ 1549
+λή_ 1547
+υνέ 1542
+βάν 1536
+_ίδ 1535
+γεν 1535
+ιαί 1534
+εάν 1533
+ευ_ 1527
+τευ 1527
+φαρ 1526
+ωτι 1524
+γκρ 1522
+αιώ 1521
+ασι 1519
+δη_ 1518
+λών 1514
+άλο 1511
+νας 1511
+ίως 1509
+νωρ 1509
+κλη 1508
+νή_ 1508
+_εά 1505
+ρημ 1505
+_ήτ 1500
+_λε 1500
+θήκ 1497
+_ψη 1492
+λων 1488
+κυβ 1486
+σικ 1486
+τόν 1486
+εξε 1484
+πιο 1484
+ανό 1481
+μον 1479
+ήτα 1477
+ταλ 1476
+δομ 1472
+_λο 1470
+ρομ 1469
+θρω 1466
+ρόσ 1463
+φασ 1461
+ωμέ 1461
+ημέ 1458
+υνά 1455
+ηρε 1453
+ώτη 1453
+όμη 1451
+ίστ 1450
+θυμ 1450
+εκπ 1440
+γεί 1437
+νια 1437
+άπτ 1435
+_κε 1431
+κοπ 1431
+ξου 1431
+ίπε 1430
+ογή 1430
+τήμ 1428
+ωρώ 1428
+αφε 1425
+_εθ 1420
+τυ_ 1420
+νης 1418
+εγο 1416
+ενε 1410
+νόμ 1410
+_ον 1409
+δρο 1407
+πεδ 1406
+αρκ 1405
+φάλ 1404
+γεγ 1399
+ενη 1397
+αγκ 1395
+μός 1395
+εκε 1393
+υμπ 1393
+αθώ 1391
+ινό 1391
+_αι 1389
+κάθ 1389
+πρω 1388
+σαφ 1388
+_μί 1385
+νάπ 1383
+υζή 1383
+τώσ 1382
+λάβ 1380
+ταγ 1380
+πηρ 1378
+αίω 1376
+λία 1376
+τία 1375
+όγω 1375
+ρές 1372
+ργί 1371
+_ι_ 1369
+γω_ 1368
+ίτρ 1366
+ολί 1363
+πιθ 1361
+νού 1360
+ύσα 1360
+ιβά 1357
+_ωσ 1356
+υνθ 1355
+γνώ 1349
diff --git a/tika-core/src/main/resources/org/apache/tika/language/en.ngp b/tika-core/src/main/resources/org/apache/tika/language/en.ngp
new file mode 100644
index 0000000000..7b0ff7ac2e
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/en.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_th 154732
+the 117027
+he_ 95427
+on_ 52529
+ion 52199
+_in 48458
+_of 47302
+_to 46961
+of_ 45622
+_co 44626
+to_ 43979
+_an 42881
+nd_ 41007
+is_ 38826
+and 38294
+ent 36998
+in_ 34623
+tio 34216
+ed_ 34118
+ing 32587
+ng_ 31999
+es_ 31252
+at_ 29583
+re_ 29200
+_re 28769
+nt_ 28050
+er_ 26375
+_pr 26146
+_be 25910
+_is 23791
+hat 23622
+men 23540
+al_ 23387
+ati 23109
+tha 22799
+for 22603
+_a_ 21520
+_wh 20668
+thi 20188
+an_ 20163
+ly_ 19930
+com 19295
+_fo 19226
+_we 19058
+ve_ 18877
+or_ 18842
+as_ 18763
+_ha 18065
+res 17961
+_wi 17873
+pro 17415
+con 17228
+_on 17153
+ts_ 16822
+his 16273
+ate 16103
+we_ 15339
+se_ 15279
+_no 15270
+_it 15183
+her 15085
+ons 15030
+en_ 14965
+ll_ 14957
+ch_ 14888
+st_ 14506
+are 13968
+it_ 13573
+le_ 13524
+_de 13487
+_i_ 13424
+ns_ 13375
+ere 13326
+ter 13267
+_ar 13207
+_ma 13164
+rop 13064
+ope 12799
+omm 12656
+_st 12216
+_as 12134
+all 12093
+ld_ 11997
+_al 11972
+be_ 11913
+sio 11812
+_po 11634
+ce_ 11563
+ect 11498
+_eu 11388
+not 11209
+ort 11098
+ty_ 11038
+ver 11001
+iti 10943
+ssi 10940
+rea 10912
+ive 10901
+whi 10843
+th_ 10842
+eur 10744
+nce 10725
+te_ 10720
+_pa 10667
+pre 10537
+eve 10507
+hic 10420
+ot_ 10304
+ich 10302
+ith 10301
+sta 10296
+our 10103
+_me 10010
+wit 10005
+oul 9789
+ide 9714
+int 9709
+par 9700
+uld 9685
+uro 9676
+ut_ 9587
+_se 9581
+cti 9559
+por 9497
+rs_ 9464
+_wo 9429
+_so 9411
+ave 9392
+cou 9388
+mmi 9375
+_un 9292
+hav 9263
+_ca 9260
+me_ 9077
+iss 9045
+ill 8964
+ry_ 8820
+ess 8804
+ted 8694
+ame 8672
+pea 8584
+ean 8514
+_su 8446
+ies 8403
+_di 8378
+oun 8351
+mis 7974
+ity 7914
+_mo 7885
+ble 7852
+ers 7829
+nte 7713
+ust 7684
+rat 7577
+est 7548
+_wa 7541
+_ne 7493
+_ex 7407
+uni 7396
+tiv 7327
+tic 7229
+_li 7016
+tin 6991
+one 6980
+ur_ 6899
+_ac 6810
+_fi 6780
+pos 6778
+rt_ 6738
+wil 6705
+by_ 6667
+hou 6661
+_sh 6659
+ica 6641
+ure 6638
+sti 6611
+ore 6597
+der 6592
+_by 6563
+tat 6556
+str 6527
+_en 6518
+eme 6456
+_fr 6434
+_ou 6430
+sid 6416
+so_ 6395
+ant 6363
+art 6357
+_do 6343
+act 6339
+ain 6294
+nti 6292
+den 6275
+_bu 6274
+nal 6262
+_le 6236
+ple 6230
+igh 6205
+ay_ 6192
+ese 6152
+ial 6121
+_mr 6119
+end 6114
+ke_ 6109
+has 6030
+ntr 5939
+ct_ 5919
+_at 5885
+ome 5870
+ear 5841
+ght 5795
+ern 5788
+ove 5784
+ne_ 5782
+tra 5697
+enc 5664
+abl 5632
+ic_ 5621
+ber 5605
+lit 5586
+lat 5534
+_fa 5517
+und 5468
+per 5467
+een 5464
+out 5459
+nci 5453
+_pe 5438
+als 5433
+us_ 5403
+ces 5394
+_ta 5391
+eas 5387
+_im 5378
+hin 5303
+man 5292
+nts 5283
+imp 5274
+_mu 5273
+arl 5241
+_ho 5236
+cal 5214
+mr_ 5178
+ss_ 5145
+tur 5131
+can 5122
+esi 5119
+ste 5114
+_or 5113
+but 5113
+_sa 5110
+ar_ 5093
+rec 5079
+ake 5076
+_tr 5049
+rep 5047
+spe 5034
+lic 5023
+use 5004
+sho 5003
+_la 4965
+oli 4937
+era 4936
+ow_ 4926
+tan 4864
+pol 4854
+_ag 4842
+nat 4840
+inc 4835
+sed 4831
+_he 4830
+mbe 4812
+rom 4798
+_am 4795
+ist 4783
+cia 4772
+nit 4767
+app 4761
+nde 4759
+_yo 4751
+you 4729
+anc 4690
+ren 4688
+eco 4643
+wou 4636
+lly 4634
+tri 4632
+mpl 4613
+tte 4602
+wor 4597
+_gr 4571
+et_ 4567
+unt 4559
+om_ 4552
+reg 4543
+rit 4518
+ds_ 4489
+eed 4484
+lia 4474
+_si 4471
+ten 4439
+min 4428
+ona 4373
+_fu 4368
+ina 4368
+_ri 4348
+eat 4343
+nta 4327
+tes 4319
+_ch 4301
+emb 4271
+han 4254
+ont 4243
+gre 4229
+nio 4224
+ous 4187
+oth 4183
+ose 4181
+ind 4172
+ven 4150
+din 4136
+ral 4136
+lea 4118
+lso 4103
+ge_ 4089
+de_ 4076
+ard 4074
+ee_ 4065
+ref 4053
+_s_ 4050
+ine 4047
+rin 4041
+ens 4040
+tho 4026
+_ab 3978
+ner 3946
+ise 3935
+nsi 3924
+pec 3921
+nst 3914
+mus 3913
+rli 3888
+rou 3860
+ues 3842
+hes 3840
+ins 3826
+rie 3826
+il_ 3822
+_ad 3820
+fro 3813
+ree 3811
+cy_ 3803
+rig 3799
+dis 3789
+_go 3783
+fic 3780
+mit 3774
+mor 3767
+ula 3757
+rta 3747
+sen 3735
+ey_ 3732
+_ba 3729
+vel 3729
+eri 3722
+tal 3721
+pe_ 3720
+ran 3674
+ini 3671
+its 3670
+eci 3669
+_qu 3668
+_mi 3655
+gra 3651
+mem 3650
+uti 3616
+iam 3614
+age 3610
+whe 3608
+sit 3593
+sin 3592
+onc 3591
+lar 3577
+_ap 3524
+ou_ 3522
+omp 3519
+ast 3517
+_te 3515
+lis 3515
+_us 3508
+ote 3504
+_sp 3497
+ew_ 3486
+rti 3481
+ppo 3480
+ery 3458
+ely 3417
+kin 3415
+bee 3390
+oin 3386
+any 3384
+tor 3357
+red 3350
+ire 3349
+pri 3348
+cul 3338
+cer 3328
+ite 3310
+gen 3300
+tak 3295
+unc 3294
+fin 3290
+orm 3287
+ene 3284
+ili 3272
+lem 3253
+ans 3238
+hen 3238
+ms_ 3232
+ord 3229
+em_ 3227
+mon 3202
+ali 3200
+sur 3180
+ves 3172
+ny_ 3163
+egi 3156
+esp 3143
+was 3139
+ish 3138
+ue_ 3137
+cha 3114
+ori 3099
+efo 3098
+ime 3093
+now 3079
+fer 3078
+_cr 3048
+_cl 3047
+ead 3045
+acc 3036
+_lo 3031
+_ev 3025
+ndi 3016
+aus 3001
+ice 3001
+cil 2995
+_ra 2992
+isi 2988
+tim 2975
+ase 2974
+que 2972
+ned 2967
+_ve 2964
+les 2956
+tai 2948
+ult 2943
+wha 2939
+_op 2933
+lin 2931
+tie 2929
+ary 2920
+mat 2911
+up_ 2911
+opo 2909
+pla 2900
+ffe 2883
+ht_ 2872
+ike 2867
+do_ 2843
+lik 2827
+eal 2819
+how 2818
+rov 2817
+ser 2811
+tre 2807
+nis 2805
+ork 2804
+ual 2802
+ir_ 2799
+ega 2792
+rd_ 2789
+epo 2779
+lan 2774
+id_ 2751
+oci 2751
+mpo 2746
+itu 2737
+pen 2732
+who 2731
+ade 2728
+ls_ 2715
+_pu 2712
+soc 2706
+_ge 2699
+sse 2698
+_if 2691
+if_ 2691
+bou 2685
+fac 2685
+ici 2682
+nme 2682
+ext 2680
+duc 2678
+_ye 2672
+cle 2667
+nin 2666
+_pl 2650
+ari 2648
+sec 2648
+hey 2646
+tly 2625
+abo 2622
+tit 2616
+_vi 2612
+equ 2605
+ost 2600
+nee 2592
+ert 2581
+iat 2578
+my_ 2574
+cat 2570
+icu 2563
+ris 2552
+exp 2551
+sol 2547
+uct 2535
+_na 2530
+rel 2522
+_ju 2519
+itt 2519
+nly 2512
+uch 2510
+tia 2505
+no_ 2504
+sib 2499
+ugh 2491
+omi 2485
+bli 2481
+tab 2478
+_hi 2474
+mme 2473
+ach 2469
+agr 2469
+cau 2465
+rge 2462
+_ot 2443
+bec 2435
+att 2433
+ong 2428
+eir 2426
+nge 2411
+oug 2411
+hei 2410
+ssu 2400
+rst 2399
+tem 2397
+am_ 2396
+cre 2386
+ani 2385
+mak 2381
+ced 2371
+ura 2369
+bil 2367
+ded 2363
+tee 2360
+owe 2357
+_ti 2356
+jec 2354
+eli 2346
+elo 2344
+ric 2342
+mar 2334
+wer 2331
+mea 2326
+leg 2323
+ond 2321
+gro 2314
+ifi 2309
+eth 2303
+_ec 2294
+sel 2290
+_up 2289
+sup 2288
+hts 2282
+nda 2273
+som 2270
+ad_ 2267
+_my 2252
+ses 2248
+irs 2246
+cie 2240
+ono 2239
+ell 2231
+tru 2230
+dec 2226
+iou 2225
+ace 2212
+dev 2212
+tar 2212
+fir 2211
+cis 2197
+rio 2196
+way 2195
+rem 2193
+ece 2189
+new 2189
+nes 2182
+ass 2173
+erm 2166
+mun 2165
+_bo 2163
+eca 2162
+_af 2145
+har 2145
+lle 2145
+isa 2140
+ang 2139
+spo 2138
+war 2137
+ele 2129
+lie 2128
+erv 2121
+_hu 2119
+mmu 2114
+roc 2112
+nsu 2109
+ibl 2103
+_ce 2096
+get 2096
+uri 2080
+el_ 2077
+mer 2076
+ria 2074
+ron 2074
+ram 2070
+lop 2067
+upp 2066
+_fe 2049
+dit 2044
+eop 2043
+rod 2042
+nk_ 2039
+jus 2038
+sal 2038
+ffi 2034
+gh_ 2022
+ogr 2021
+pon 2020
+qui 2014
+rk_ 2012
+_ob 2011
+suc 2011
+asi 2010
+dem 2003
+ein 2001
+aid 1998
+sue 1998
+icy 1989
+sis 1986
+opl 1983
+fun 1980
+peo 1973
+bet 1970
+oce 1969
+ann 1968
+cce 1968
+nom 1959
+mad 1948
+lut 1945
+see 1945
+poi 1941
+chi 1940
+rke 1939
+_es 1934
+yea 1928
+arg 1927
+ivi 1927
+onl 1925
+ita 1921
+low 1912
+rog 1909
+day 1904
+own 1903
+clu 1894
+emp 1894
+rre 1891
+tro 1887
+led 1885
+wn_ 1881
+ho_ 1877
+urs 1876
+_da 1875
+cur 1874
+hem 1874
+dir 1861
+rly 1857
+tec 1856
+ful 1855
+_ci 1847
+ia_ 1836
+ume 1834
+iev 1833
+oll 1833
+vin 1833
+od_ 1826
+rce 1816
+gai 1806
+rte 1806
+rac 1805
+cri 1804
+_em 1800
+_vo 1797
+tua 1797
+isc 1793
+rm_ 1793
+oss 1791
+sh_ 1787
+sat 1783
+mes 1782
+ovi 1778
+rde 1776
+osi 1769
+eff 1766
+rse 1763
+llo 1761
+try 1760
+odu 1758
+_gi 1757
+cts 1755
+wee 1754
+_br 1750
+cit 1745
+olu 1744
+son 1744
+dam 1743
+_cu 1739
+lf_ 1738
+ntl 1736
+giv 1733
+osa 1731
+_ef 1726
+ink 1716
+hos 1715
+cen 1714
+nds 1706
+ppr 1700
+bat 1698
+aga 1693
+eac 1692
+ndm 1687
+ark 1685
+ctu 1683
+eso 1680
+nto 1680
+sub 1680
+hum 1679
+uma 1678
+bel 1673
+thr 1670
+dme 1667
+obl 1667
+rna 1667
+hal 1665
+edu 1664
+_sc 1661
+vid 1661
+emo 1659
+_au 1657
+des 1657
+ved 1655
+nan 1652
+oup 1651
+hea 1647
+eti 1644
+bas 1643
+tel 1641
+ara 1635
+ela 1634
+ncl 1625
+ept 1624
+nvi 1624
+rds 1621
+wel 1621
+bei 1619
+ood 1617
+qua 1614
+inf 1610
+oti 1609
+fec 1604
+nfo 1604
+gov 1597
+dif 1596
+lon 1596
+lve 1594
+etw 1591
+ems 1585
+alt 1584
+dea 1583
+bje 1582
+cip 1578
+ack 1576
+rma 1576
+gar 1574
+ien 1571
+rob 1570
+vot 1560
+_ru 1559
+dy_ 1557
+lac 1557
+ign 1547
+say 1545
+onf 1544
+edi 1540
+inv 1539
+cor 1534
+imi 1533
+med 1529
+twe 1529
+iff 1524
+mic 1524
+rth 1513
+ian 1505
+_va 1504
+kno 1504
+plo 1502
+gio 1496
+pli 1493
+che 1490
+_sy 1489
+ruc 1487
+ole 1486
+ppl 1478
+rtu 1477
+_ai 1475
+eem 1475
+mos 1474
+ana 1456
+sum 1456
+sts 1455
+mil 1453
+ks_ 1451
+hor 1450
+cas 1449
+lli 1449
+adi 1443
+pme 1442
+rdi 1440
+_ea 1438
+off 1437
+uat 1435
+ars 1434
+deb 1432
+cep 1431
+dge 1431
+rnm 1424
+wan 1422
+usi 1418
+ges 1416
+amm 1412
+_kn 1411
+pin 1407
+ied 1406
+nno 1404
+vis 1402
+rev 1400
+del 1398
+opm 1394
+nve 1390
+hel 1383
+cra 1382
+ubl 1380
+wev 1380
+cus 1378
+rap 1377
+tut 1375
+ism 1372
+lev 1371
+rn_ 1371
+ute 1367
+_ro 1366
+rot 1366
+eu_ 1364
+ea_ 1363
+_el 1354
+lud 1352
+aki 1348
+ech 1347
+ete 1347
+_ov 1343
+cco 1341
+eba 1341
+ict 1338
+efe 1334
+env 1334
+yst 1333
+gin 1332
+shi 1332
+egu 1331
+fre 1327
+urt 1325
+dur 1322
+add 1320
+vir 1318
+_dr 1316
+oes 1312
+iro 1303
+she 1302
+vie 1301
+air 1296
+car 1296
+ck_ 1296
+mpe 1293
+sla 1292
+opi 1288
+sys 1288
+too 1288
+ncy 1287
+err 1282
+til 1281
+uss 1281
+ask 1279
+ps_ 1278
+opt 1277
+aff 1272
+ank 1266
+ngs 1266
+ail 1264
+exa 1263
+ors 1248
+sto 1248
+ket 1247
+cto 1246
+uth 1241
+rad 1239
+onm 1238
+atu 1234
+mpr 1234
+fra 1229
+loy 1229
+ize 1226
+hy_ 1225
+tle 1225
+pub 1224
+lec 1223
+req 1219
+iew 1218
+nic 1217
+hil 1216
+_du 1214
+nse 1211
+two 1210
+xt_ 1207
+aft 1206
+vic 1204
+rol 1202
+coo 1199
+evi 1199
+exc 1196
+fte 1191
+col 1190
+cte 1190
+rms 1186
+nor 1184
+log 1183
+ema 1180
+eta 1178
+ipl 1175
+dat 1174
+gs_ 1174
+rts 1174
+mai 1169
+far 1166
+gul 1166
+amp 1164
+oni 1164
+rne 1164
+ger 1163
+abi 1162
+aut 1157
+las 1154
+erg 1153
+_tw 1151
+let 1150
+sou 1148
+olv 1144
+len 1143
+ibi 1141
+pt_ 1141
+ocr 1140
+doe 1136
+set 1133
+mpa 1132
+hol 1131
+sha 1131
+ken 1129
+_gu 1126
+sk_ 1126
+lig 1125
diff --git a/tika-core/src/main/resources/org/apache/tika/language/eo.ngp b/tika-core/src/main/resources/org/apache/tika/language/eo.ngp
new file mode 100644
index 0000000000..f799030c68
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/eo.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_la 382428
+la_ 374029
+aj_ 246196
+_de 243032
+de_ 224736
+oj_ 196353
+is_ 184184
+as_ 167445
+_ka 158716
+en_ 145494
+_en 143916
+_es 136176
+kaj 133721
+est 127476
+to_ 119334
+on_ 111006
+sta 102398
+io_ 94844
+ro_ 92272
+_pr 86851
+ta_ 84035
+_ko 81850
+_po 78991
+_li 78651
+ant 78055
+tas 76074
+jn_ 75117
+_ki 71830
+ran 67142
+_al 66971
+per 64839
+_ma 64513
+nto 63544
+an_ 63496
+ist 63058
+tis 62800
+li_ 59418
+no_ 58385
+sti 58354
+aŭ_ 57064
+kon 56876
+do_ 56827
+ita 56600
+_re 55250
+toj 52344
+ent 51516
+_an 49254
+_in 49196
+el_ 49185
+_ti 48980
+aro 47609
+ia_ 47484
+era 46867
+_se 46678
+ter 46674
+ojn 46607
+sto 44974
+_pl 44131
+nta 42572
+lo_ 42413
+_si 41789
+pro 41744
+and 41350
+al_ 40597
+taj 40368
+_mo 39952
+_ku 39584
+nte 39520
+tra 39196
+_su 38668
+_tr 37801
+_pa 37749
+te_ 36918
+_el 36863
+_ja 35980
+lan 35290
+_no 35285
+str 35267
+int 35237
+iu_ 34758
+ĝis 34526
+mal 34395
+spe 34114
+por 34002
+ili 33780
+_ne 33742
+ono 33221
+roj 33107
+er_ 32980
+_pe 32912
+ver 32687
+kiu 32398
+ata 32238
+mo_ 32101
+_ek 31851
+par 31812
+na_ 31546
+ko_ 31323
+esp 31152
+oni 31136
+ne_ 31100
+ado 30618
+ajn 30394
+gra 30281
+pre 30086
+art 30018
+_di 29742
+ra_ 29729
+ank 29714
+_un 29391
+lin 28832
+un_ 28792
+or_ 28659
+da_ 28594
+_vi 28489
+tro 28462
+ort 28424
+mon 28335
+_du 28273
+_gr 27759
+kun 27460
+kie 27371
+iĝi 27310
+pri 27274
+_te 26849
+nda 26844
+ali 26703
+eri 26702
+jar 26668
+unu 26566
+men 26435
+_ĝi 26411
+_fa 26339
+igi 26298
+_fo 26208
+ris 26161
+lia 26035
+ori 25930
+man 25760
+iel 25478
+_me 25465
+ri_ 25226
+_ve 25125
+ndo 24996
+kom 24890
+ato 24793
+iaj 24374
+ing 24319
+loj 24202
+noj 24059
+ano 23865
+_ĉe 23736
+ost 23591
+ont 23504
+iko 23470
+ara 23402
+ari 23393
+ton 23389
+ion 23088
+_aŭ 23086
+_ĉi 23039
+olo 23002
+co_ 22791
+dis 22751
+tan 22705
+ero 22650
+cio 22578
+_ke 22566
+rto 22427
+ple 22424
+ona 22317
+_mi 22130
+for 22075
+vas 22049
+res 21573
+_ar 21495
+kaŭ 21484
+ni_ 21472
+ino 21409
+pos 21408
+ond 21383
+aci 21203
+nom 21114
+_sa 21097
+rio 20941
+don 20939
+_a_ 20895
+nis 20827
+_fi 20721
+ste 20709
+ekt 20560
+rbo 20334
+ala 20211
+nka 20005
+ova 19919
+ika 19896
+am_ 19768
+_st 19732
+tri 19715
+urb 19704
+_kr 19629
+kto 19451
+ult 19403
+enc 19375
+_mu 19363
+iuj 19315
+nti 19227
+in_ 19191
+pli 19189
+_ha 19073
+tem 18910
+_na 18887
+mil 18707
+re_ 18705
+_ba 18595
+ron 18581
+cia 18499
+ntr 18457
+ana 18423
+_fr 18310
+ani 18277
+tiu 18229
+ons 18088
+aĵo 18007
+lit 17946
+alo 17914
+ilo 17844
+bo_ 17783
+_ri 17713
+le_ 17588
+ke_ 17581
+lon 17579
+rti 17464
+nas 17458
+tur 17452
+sia 17362
+ern 17178
+go_ 17178
+uj_ 17178
+_lo 17024
+oro 16925
+ven 16925
+eno 16894
+_on 16892
+tat 16859
+ava 16840
+ian 16642
+_nu 16636
+ka_ 16588
+tik 16586
+ur_ 16573
+omo 16555
+nst 16538
+_ur 16429
+nio 16379
+vo_ 16233
+ito 16230
+tor 16132
+_il 16099
+_ge 16082
+tio 15963
+ive 15933
+ndi 15926
+raj 15875
+_or 15831
+_da 15720
+eni 15702
+_ap 15700
+eks 15621
+ten 15575
+ers 15567
+ngv 15546
+po_ 15509
+ren 15297
+ide 15274
+rma 15270
+ulo 15264
+jo_ 15216
+vis 15183
+sed 15177
+reg 15151
+bro 15138
+ed_ 15089
+son 15082
+ena 14920
+ome 14913
+doj 14875
+tar 14853
+mar 14814
+_so 14788
+eto 14735
+_ok 14593
+hav 14577
+_ho 14547
+gis 14523
+erm 14504
+end 14420
+um_ 14412
+ina 14368
+ma_ 14351
+ati 14266
+iam 14239
+rit 14234
+sen 14217
+moj 14113
+dum 14108
+eco 14094
+_vo 14090
+_ta 14053
+mul 13983
+va_ 13963
+emp 13961
+rad 13941
+cen 13928
+den 13816
+ĝo_ 13816
+lej 13808
+_ro 13735
+_le 13729
+ovi 13656
+anc 13632
+akt 13568
+dan 13568
+ejo 13532
+ĝi_ 13508
+ila 13493
+ini 13443
+lio 13402
+tru 13367
+_ak 13345
+ie_ 13328
+ame 13290
+ele 13288
+ama 13234
+mor 13229
+ora 13145
+las 13125
+elo 13065
+ioj 13044
+uni 13020
+oli 12996
+fra 12922
+so_ 12895
+es_ 12890
+ere 12858
+kis 12853
+_br 12843
+nov 12840
+ord 12810
+pol 12732
+nco 12711
+tin 12663
+_ra 12624
+_be 12621
+egi 12619
+_do 12514
+kan 12476
+nci 12449
+fer 12414
+ast 12395
+_tu 12322
+st_ 12288
+ĝas 12242
+rat 12180
+iĝa 12129
+gio 12120
+lta 12063
+rov 11941
+erk 11928
+_hi 11908
+kol 11901
+kti 11884
+iga 11863
+orm 11830
+ura 11829
+rez 11785
+ej_ 11779
+tal 11764
+emo 11739
+_he 11716
+kva 11615
+ale 11518
+van 11515
+ras 11353
+voj 11321
+_va 11270
+lig 11270
+oma 11257
+_ce 11252
+ber 11247
+ici 11247
+far 11205
+_bo 11192
+sur 11166
+ins 11159
+rig 11142
+rop 11142
+rna 11083
+oka 11064
+gvo 11044
+nua 11032
+bor 10997
+kri 10988
+ene 10942
+vid 10902
+je_ 10854
+omi 10824
+opo 10818
+ua_ 10805
+uro 10804
+gan 10751
+ien 10745
+_ju 10692
+tie 10659
+koj 10645
+ola 10592
+ebl 10591
+ate 10582
+ang 10579
+mbr 10567
+_fe 10554
+san 10539
+kta 10510
+tre 10499
+rom 10473
+sis 10433
+rin 10430
+zis 10427
+nat 10422
+ekz 10418
+_sp 10394
+duk 10386
+kre 10344
+_je 10325
+_of 10275
+nor 10263
+ong 10263
+ism 10248
+laŭ 10140
+tit 10138
+iti 10095
+fin 10090
+ria 10073
+rte 10044
+lek 10043
+der 10028
+rik 9921
+abo 9900
+ski 9879
+bla 9867
+kar 9850
+min 9845
+fon 9826
+taŭ 9780
+mat 9762
+sim 9749
+ind 9745
+ezi 9735
+iri 9728
+apa 9712
+ĉef 9708
+non 9702
+azi 9636
+rta 9611
+nac 9601
+lis 9578
+pan 9562
+avi 9551
+pov 9495
+eci 9453
+naj 9452
+ask 9416
+eta 9409
+maj 9369
+sek 9363
+tia 9287
+_am 9280
+lik 9255
+sub 9221
+omp 9208
+laj 9207
+ser 9152
+kul 9143
+ger 9128
+ial 9125
+_ru 9070
+igo 9059
+raŭ 9046
+me_ 9036
+ida 9030
+zo_ 9000
+_kv 8968
+git 8945
+rie 8921
+_uz 8908
+kor 8895
+nde 8895
+ti_ 8894
+rdo 8860
+ans 8847
+nca 8841
+ĵoj 8814
+nur 8812
+ĉe_ 8802
+nu_ 8775
+lib 8764
+mpe 8760
+bli 8675
+ler 8663
+mer 8651
+ert 8625
+lab 8617
+nko 8589
+ca_ 8547
+_lu 8535
+pen 8515
+var 8511
+nan 8505
+rol 8477
+eli 8446
+kci 8444
+gas 8440
+vol 8436
+iki 8433
+ago 8432
+are 8425
+pon 8425
+_ga 8379
+edi 8369
+his 8347
+adi 8332
+ami 8313
+bon 8299
+rib 8267
+nsi 8252
+rki 8225
+nga 8223
+lat 8218
+alt 8205
+uso 8173
+mun 8162
+mpl 8152
+vin 8148
+met 8128
+lar 8126
+fil 8095
+_bi 8088
+rav 8044
+rak 8006
+ral 7991
+mpo 7977
+emb 7944
+_fl 7915
+daj 7911
+ard 7894
+erv 7862
+lor 7850
+tiv 7815
+oci 7803
+mem 7792
+sam 7792
+uzi 7777
+gen 7773
+ies 7757
+rko 7735
+tig 7711
+iva 7708
+ape 7695
+_kl 7691
+ite 7671
+ema 7663
+ar_ 7661
+len 7660
+oko 7644
+reĝ 7617
+ksi 7570
+smo 7566
+rus 7562
+atu 7544
+dio 7540
+org 7527
+ĵo_ 7527
+us_ 7523
+eso 7504
+viv 7493
+plu 7487
+_ni 7483
+ove 7460
+gi_ 7444
+mas 7437
+kia 7411
+kaz 7410
+sit 7408
+tut 7380
+eko 7372
+iĝo 7331
+evi 7318
+imp 7311
+ela 7300
+ret 7277
+stu 7273
+log 7272
+kla 7264
+kiĝ 7257
+ine 7249
+ner 7249
+gar 7244
+ĉiu 7200
+_at 7195
+bel 7162
+sin 7161
+emi 7141
+rek 7131
+pla 7112
+sa_ 7108
+_sc 7082
+hom 7082
+vor 7077
+gre 7063
+red 7043
+kat 7041
+kel 7002
+pe_ 6954
+val 6945
+arc 6941
+eo_ 6903
+ldo 6869
+pra 6868
+ark 6865
+ĝin 6848
+kur 6841
+se_ 6840
+tek 6822
+soc 6804
+sig 6788
+rec 6751
+_ŝi 6742
+ido 6736
+dek 6730
+rce 6722
+con 6714
+bra 6711
+cie 6709
+anĝ 6703
+cid 6664
+lok 6655
+ga_ 6626
+ens 6623
+_sk 6586
+vaj 6584
+ĉi_ 6578
+ivi 6576
+ira 6575
+tel 6565
+_as 6562
+du_ 6561
+os_ 6560
+ust 6543
+ril 6520
+riĝ 6513
+sci 6504
+inf 6473
+rmo 6433
+rka 6415
+ska 6415
+arm 6411
+aĝo 6403
+bri 6402
+sko 6400
+nce 6349
+_pi 6346
+dia 6341
+elk 6332
+aso 6331
+rmi 6330
+ega 6321
+mis 6314
+uda 6305
+rok 6295
+eti 6293
+_pu 6285
+nun 6281
+_ol 6247
+dev 6238
+ako 6232
+odo 6209
+_us 6179
+atr 6177
+omu 6174
+ign 6161
+one 6159
+cis 6154
+rso 6153
+ula 6151
+eda 6144
+loĝ 6125
+fam 6122
+sup 6115
+idi 6105
+_bu 6102
+bar 6087
+rme 6072
+uti 6068
+lka 6044
+tiĝ 6037
+uza 6037
+kst 6015
+ofi 5991
+umo 5935
+sio 5925
+_ŝt 5905
+omb 5903
+ibe 5891
+olu 5891
+div 5889
+coj 5878
+asi 5861
+_hu 5845
+izo 5839
+und 5825
+rga 5818
+mit 5815
+pec 5814
+amo 5809
+_im 5784
+itu 5769
+rua 5762
+ve_ 5756
+ogi 5734
+flu 5727
+ice 5722
+rsa 5720
+inc 5718
+efe 5711
+hel 5698
+kde 5695
+ole 5691
+ote 5677
+ukt 5650
+imi 5622
+etr 5619
+eve 5618
+ekd 5610
+ete 5600
+_ĉa 5596
+rla 5584
+kap 5563
+oft 5563
+skr 5550
+_ŝa 5543
+ume 5537
+kro 5533
+das 5529
+una 5526
+_jo 5523
+ipo 5522
+ces 5520
+esi 5506
+upo 5488
+ol_ 5487
+ble 5474
+iun 5474
+uo_ 5471
+eze 5469
+ima 5452
+ime 5438
+ngl 5419
+spa 5416
+esk 5414
+kal 5405
+rac 5398
+kam 5397
+ric 5386
+rui 5380
+tad 5364
+rda 5359
+lud 5350
+ede 5349
+ivo 5336
+niv 5335
+nik 5332
+rem 5328
+ce_ 5318
+poj 5317
+rev 5301
+tol 5297
+iro 5292
+din 5282
+saj 5280
+leg 5275
+om_ 5275
+enk 5270
+uta 5261
+nig 5258
+cip 5254
+alp 5250
+uri 5248
+kio 5246
+oje 5244
+ram 5229
+ŭro 5229
+imo 5221
+vil 5195
+rba 5191
+izi 5181
+lte 5179
+udo 5176
+ŝta 5169
+aga 5160
+_fu 5149
+ier 5149
+tam 5145
+boj 5103
+gru 5093
+sud 5090
+til 5088
+ndu 5087
+ĝan 5084
+pat 5076
+nit 5065
+nal 5058
+vad 5056
+_ag 5053
+dec 5047
+rup 5045
+zon 5045
+_ci 5026
+uli 5021
+goj 5018
+ore 5007
+riv 4998
+alf 4983
+_eŭ 4981
+eĝo 4968
+_to 4947
+foj 4935
+ubl 4922
+uis 4915
+_eb 4902
+soj 4898
+arb 4892
+apo 4887
+num 4884
+all 4855
+_ad 4837
+ald 4836
+kce 4819
+jam 4815
+rdi 4805
+opa 4802
+viĝ 4795
+edo 4791
+lim 4788
+ibr 4783
+zio 4779
+sla 4766
+eŭr 4764
+fte 4760
+mpa 4759
+isp 4755
+raf 4755
+erl 4751
+jun 4751
+ekv 4737
+_ca 4735
+evo 4733
+oto 4723
+kas 4714
+_ed 4711
+pas 4707
+ogr 4701
+irk 4674
+ept 4663
+mov 4645
+zid 4639
+her 4636
+tag 4636
+sol 4613
+pub 4602
+kzi 4600
+gla 4592
+rim 4571
+mio 4566
+esa 4562
+dit 4556
+ge_ 4549
+oks 4535
+eme 4533
+opr 4528
+isk 4516
+zas 4516
+tim 4503
+bur 4501
+nse 4489
+amp 4481
+rei 4480
+bat 4478
+rel 4472
+aco 4470
+fla 4468
+aŭt 4460
+ung 4459
+ile 4446
+iza 4443
+rsi 4443
+odi 4429
+nkt 4417
+lam 4403
+mia 4403
+eld 4402
+ksa 4397
+_ev 4394
+spo 4390
+ipe 4377
+alk 4364
+unk 4362
+nia 4361
+plo 4361
+nen 4354
+pop 4349
+als 4348
+aza 4347
+fun 4343
+vi_ 4329
+_n_ 4320
+kte 4320
+dep 4301
+joj 4301
+_co 4292
+ezo 4290
+rod 4276
+von 4262
+ea_ 4253
+rea 4249
+oku 4243
+cer 4223
+mez 4223
+sal 4204
+mi_ 4199
+riz 4195
+sil 4195
+dir 4194
+_m_ 4190
+gon 4186
+ĝoj 4180
+dik 4177
+ĝen 4167
+del 4161
+aka 4156
+mik 4147
+tud 4138
+_bl 4135
+dem 4127
+sma 4124
+fic 4119
+ego 4098
+lem 4091
+ave 4078
+iis 4076
+ire 4068
+kad 4049
+rne 4049
+rof 4046
+okc 4035
+muz 4015
+dat 4013
+gni 4007
+ngo 4000
+kze 3997
+oĝa 3988
+ĉar 3981
+ane 3979
+rap 3978
+api 3977
+rde 3969
+rot 3968
+rep 3954
+ikt 3953
+sul 3951
+nej 3948
+dua 3944
+ek_ 3932
+zik 3927
+amb 3899
+vit 3897
+kut 3887
+kvi 3880
+dor 3879
+_et 3877
+nar 3873
+hun 3869
+erb 3867
+bru 3863
+nic 3861
+zen 3853
+kit 3846
+ŝi_ 3841
+ada 3837
+eva 3817
+nge 3801
diff --git a/tika-core/src/main/resources/org/apache/tika/language/es.ngp b/tika-core/src/main/resources/org/apache/tika/language/es.ngp
new file mode 100644
index 0000000000..d876720291
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/es.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_de 136162
+os_ 104432
+de_ 96031
+_la 81054
+_co 64732
+la_ 62987
+es_ 60027
+as_ 58615
+_qu 56200
+que 55727
+ue_ 53693
+ent 53516
+en_ 52339
+el_ 50612
+_en 49870
+_es 48725
+ón_ 46841
+ión 46068
+est 43016
+nte 42192
+te_ 38687
+_el 38461
+con 37552
+_se 37134
+_pr 35772
+do_ 34887
+_lo 34502
+_y_ 32030
+_un 30742
+_re 29625
+_po 29551
+aci 29218
+_a_ 29199
+los 28792
+ció 28717
+_pa 28600
+to_ 28476
+ra_ 27785
+res 27200
+men 26415
+ar_ 25118
+ado 25005
+com 24457
+sta 23713
+par 23570
+or_ 22898
+_in 22253
+se_ 21776
+al_ 21224
+por 20662
+_ha 20266
+no_ 19782
+_no 19637
+las 19623
+pro 18796
+nto 18515
+pre 18215
+tra 18215
+ien 18094
+ta_ 18071
+cia 18041
+ion 17727
+ida 17065
+nci 16820
+na_ 16728
+ica 16595
+cio 16590
+mos 16275
+one 16216
+del 15972
+dad 15624
+lo_ 15488
+ara 15288
+ia_ 14766
+una 14753
+ant 14486
+nes 14249
+_si 14167
+er_ 14052
+ame 13930
+dos 13906
+_al 13877
+rec 13848
+rop 13745
+on_ 13491
+an_ 13268
+_so 13252
+nta 13173
+da_ 13104
+ro_ 13032
+_di 12932
+_su 12895
+ues 12709
+_me 12586
+era 12502
+des 12453
+per 12285
+_pe 12224
+un_ 12196
+re_ 11905
+ste 11899
+mis 11726
+ten 11678
+ter 11476
+enc 11340
+ad_ 11252
+tar 11116
+isi 11112
+_ca 10938
+ici 10928
+les 10770
+uro 10756
+sió 10697
+pue 10688
+tad 10621
+mo_ 10163
+io_ 10146
+str 10101
+ons 9952
+nos 9905
+_cu 9835
+ari 9810
+ada 9771
+tos 9746
+ido 9642
+omi 9583
+eur 9560
+tiv 9560
+ntr 9498
+_eu 9482
+esp 9477
+_tr 9414
+_mi 9363
+ect 9362
+tic 9322
+ero 9214
+den 9204
+emo 9181
+ere 9157
+tan 9147
+ier 9049
+_ma 8996
+_ta 8994
+ía_ 8957
+tam 8818
+orm 8810
+rio 8749
+_ac 8686
+esi 8656
+bre 8655
+sid 8627
+ca_ 8595
+ale 8551
+ndo 8536
+mie 8477
+ist 8448
+der 8325
+ide 8284
+for 8259
+eci 8249
+sti 8242
+ble 8210
+ene 8196
+_to 8194
+ona 8191
+esa 8081
+ran 8077
+_te 7956
+end 7934
+uni 7910
+ope 7900
+tro 7898
+ont 7887
+deb 7873
+ros 7787
+mbi 7751
+sto 7662
+_pu 7656
+cho 7529
+ha_ 7509
+amb 7491
+_ex 7420
+ese 7364
+int 7253
+ina 7226
+das 7081
+ría 7030
+_mu 6965
+art 6917
+gra 6882
+cto 6867
+tes 6857
+so_ 6839
+ir_ 6792
+spe 6704
+ma_ 6692
+edi 6656
+ás_ 6644
+_nu 6501
+señ 6470
+co_ 6455
+más 6441
+tod 6398
+omo 6376
+ora 6350
+lam 6322
+ece 6312
+ser 6290
+ita 6283
+ea_ 6280
+ria 6261
+me_ 6256
+qui 6227
+sar 6206
+_as 6167
+lar 6121
+obr 6092
+cue 6081
+eño 6050
+iva 6034
+nue 5959
+_ap 5930
+fic 5924
+amo 5908
+ali 5900
+nal 5838
+rta 5836
+egu 5791
+ech 5761
+iza 5731
+eri 5730
+ñor 5723
+ort 5694
+rac 5692
+ico 5684
+dic 5667
+ces 5661
+pon 5640
+ade 5636
+sob 5607
+ren 5603
+and 5589
+odo 5582
+_má 5529
+emp 5523
+rma 5485
+ner 5478
+ebe 5448
+ace 5437
+mpl 5411
+ios 5407
+ura 5405
+ial 5353
+cer 5337
+le_ 5271
+inc 5236
+su_ 5233
+uer 5220
+man 5215
+sen 5211
+unt 5206
+eo_ 5197
+tas 5168
+va_ 5165
+ras 5158
+tal 5158
+cas 5154
+mer 5148
+cie 5130
+imp 5117
+arl 5078
+mpo 5051
+nda 5030
+dec 5018
+ema 5009
+ili 4972
+reg 4968
+lic 4876
+pos 4860
+_ve 4848
+_gr 4823
+_im 4816
+lid 4782
+ati 4776
+go_ 4763
+tur 4735
+uci 4702
+med 4693
+omp 4690
+én_ 4638
+_mo 4635
+ién 4631
+_fu 4619
+_cr 4615
+ate 4578
+cci 4569
+anc 4568
+cre 4551
+gun 4544
+abl 4531
+nfo 4528
+rla 4516
+tor 4512
+ued 4491
+inf 4486
+min 4483
+mbr 4479
+pec 4452
+imi 4425
+car 4406
+_fi 4395
+pri 4389
+bié 4365
+nió 4365
+eso 4355
+rar 4352
+jo_ 4338
+nse 4338
+llo 4335
+rme 4321
+iem 4305
+nti 4303
+nde 4301
+_he 4300
+seg 4296
+ede 4292
+íti 4288
+cul 4283
+pol 4276
+ore 4270
+rad 4258
+rat 4258
+rea 4240
+cua 4237
+_ad 4228
+ral 4227
+ber 4225
+sin 4202
+_ci 4201
+_le 4201
+dem 4197
+oci 4196
+ho_ 4169
+ivo 4168
+ejo 4157
+ust 4130
+cti 4120
+emb 4112
+ver 4101
+eco 4094
+erc 4092
+ual 4083
+ce_ 4081
+_an 4068
+cad 4066
+_vi 4063
+_ob 4051
+tie 4051
+mas 4028
+_ti 4026
+ias 4006
+_fo 4000
+ndi 3986
+hac 3960
+otr 3955
+bie 3949
+rte 3940
+ert 3938
+uen 3928
+pea 3898
+cos 3884
+osi 3878
+olí 3869
+itu 3867
+lít 3862
+ond 3830
+uie 3829
+_em 3827
+gar 3820
+vo_ 3815
+ses 3796
+_ne 3768
+act 3761
+lan 3753
+ano 3752
+ela 3735
+sa_ 3724
+leg 3684
+uda 3682
+nic 3664
+tre 3662
+son 3648
+und 3647
+pli 3635
+nst 3629
+ers 3619
+tem 3608
+fin 3594
+dis 3574
+mun 3572
+nsi 3564
+sol 3562
+spo 3562
+mar 3555
+ome 3555
+gen 3525
+ya_ 3515
+aba 3508
+ini 3502
+ori 3488
+are 3485
+_sa 3467
+ata 3448
+ern 3428
+nac 3427
+rti 3426
+ven 3417
+ism 3368
+rá_ 3358
+in_ 3345
+_li 3344
+dir 3340
+lac 3283
+nid 3274
+si_ 3260
+_ot 3258
+ram 3248
+cha 3246
+ult 3241
+fer 3233
+ne_ 3232
+uch 3216
+ime 3214
+duc 3206
+aís 3191
+_va 3189
+ref 3180
+paí 3177
+egi 3164
+mpr 3151
+ito 3147
+did 3144
+lem 3142
+hos 3128
+tri 3124
+sos 3118
+_pl 3114
+liz 3114
+_au 3112
+eda 3111
+ula 3098
+tua 3093
+ifi 3092
+alm 3090
+pla 3086
+ens 3079
+sit 3076
+pod 3075
+rol 3071
+nas 3064
+lme 3051
+stá 3045
+ele 3044
+rob 3044
+_lu 3042
+_am 3028
+erd 3021
+nad 3003
+_sr 3002
+sus 2988
+onc 2986
+rid 2986
+tac 2982
+po_ 2953
+hay 2931
+_ni 2929
+ino 2926
+peo 2926
+nec 2913
+rse 2912
+alg 2904
+cac 2898
+erv 2887
+_ju 2883
+ami 2876
+eme 2876
+ete 2870
+_na 2864
+dar 2863
+ple 2848
+can 2846
+bil 2844
+ota 2843
+eti 2833
+obl 2827
+mit 2792
+bro 2790
+oce 2787
+han 2775
+smo 2766
+opu 2758
+_fa 2755
+zar 2749
+rim 2746
+rab 2736
+rro 2736
+ecu 2730
+err 2724
+imo 2724
+arr 2720
+soc 2713
+roc 2704
+cam 2703
+cla 2695
+eno 2678
+ega 2677
+ell 2677
+_or 2676
+tid 2674
+_o_ 2673
+hab 2673
+dam 2666
+cir 2660
+cid 2642
+ctu 2640
+ins 2639
+_ba 2632
+án_ 2620
+sis 2617
+aso 2601
+nen 2596
+baj 2594
+col 2593
+eni 2592
+_vo 2591
+ani 2585
+efe 2575
+_do 2570
+erm 2567
+cor 2558
+olu 2547
+ric 2542
+eva 2539
+omu 2535
+efi 2534
+sej 2529
+_ho 2525
+exi 2525
+luc 2523
+nsa 2521
+fun 2516
+lta 2515
+_da 2504
+rel 2501
+eta 2498
+us_ 2489
+año 2479
+rmi 2479
+ret 2474
+dor 2469
+tim 2466
+cen 2463
+rem 2447
+igu 2444
+be_ 2439
+tab 2438
+_ge 2428
+arg 2428
+erí 2426
+lec 2420
+_añ 2418
+nar 2418
+asa 2417
+ima 2411
+sas 2410
+uno 2406
+esu 2405
+pa_ 2400
+tit 2399
+nve 2392
+sio 2389
+pet 2388
+uev 2383
+ún_ 2383
+rca 2373
+_ag 2372
+sup 2371
+dif 2370
+rod 2370
+asi 2361
+nce 2358
+_op 2357
+_ya 2349
+ord 2330
+ire 2328
+cip 2322
+muc 2313
+exp 2312
+cis 2308
+sab 2308
+oda 2307
+rso 2304
+vis 2293
+reo 2290
+eba 2276
+rno 2272
+sie 2272
+íse 2272
+dio 2271
+ena 2267
+hor 2263
+esc 2262
+sig 2261
+opi 2243
+abi 2240
+ogr 2238
+ced 2230
+eal 2230
+oy_ 2229
+rep 2225
+vid 2221
+ind 2215
+uy_ 2209
+ibl 2208
+muy 2207
+cta 2197
+dan 2196
+mpe 2191
+ama 2184
+ola 2180
+gui 2174
+nan 2173
+clu 2164
+sib 2157
+zac 2153
+ono 2144
+opa 2139
+lib 2125
+_ec 2123
+gur 2121
+ana 2118
+fue 2118
+isa 2117
+nor 2114
+oso 2113
+ará 2110
+lla 2106
+onf 2106
+fec 2105
+abo 2101
+ocu 2100
+bar 2093
+rre 2089
+odu 2085
+sr_ 2080
+iti 2075
+pen 2075
+ay_ 2074
+vos 2073
+yo_ 2071
+tin 2070
+_ll 2067
+ast 2062
+_fr 2056
+ode 2055
+sea 2047
+za_ 2041
+_ce 2031
+dia 2031
+sec 2031
+opo 2020
+uan 2019
+vas 2014
+ans 2007
+sí_ 2007
+oll 2000
+_hu 1988
+lgu 1988
+lle 1985
+evi 1984
+tir 1984
+gan 1981
+rda 1965
+bra 1964
+mi_ 1962
+acu 1957
+ext 1953
+rie 1950
+ga_ 1949
+rqu 1948
+tió 1947
+_ra 1933
+ala 1932
+_ab 1931
+uct 1930
+lat 1922
+uga 1915
+_cl 1914
+apr 1913
+rgo 1913
+rin 1912
+bat 1911
+orí 1910
+acc 1900
+tru 1897
+rev 1895
+cal 1882
+len 1878
+amp 1874
+eje 1874
+ior 1874
+nmi 1873
+pac 1865
+mod 1864
+tá_ 1863
+uma 1862
+ías 1861
+lad 1859
+upo 1856
+_ar 1850
+ron 1849
+bli 1846
+ume 1844
+ost 1838
+sic 1838
+ncl 1831
+ños 1831
+pta 1823
+_ga 1822
+uir 1816
+ole 1812
+lab 1809
+icu 1801
+arc 1795
+rdo 1785
+abe 1783
+lug 1782
+_ej 1777
+lim 1774
+rog 1767
+iac 1765
+eli 1764
+rán 1763
+iad 1762
+_só 1756
+ars 1755
+gua 1754
+sól 1754
+rib 1739
+ibi 1732
+ajo 1722
+zad 1714
+ivi 1712
+jet 1711
+aqu 1697
+iar 1696
+pas 1694
+has 1690
+lia 1687
+onv 1686
+_ah 1684
+ólo 1682
+_bi 1681
+enm 1680
+apo 1676
+oca 1673
+ayo 1670
+nza 1670
+ecc 1665
+_du 1663
+uac 1660
+rup 1659
+ane 1657
+_ef 1656
+ez_ 1651
+may 1650
+oba 1642
+ben 1638
+bje 1637
+nom 1632
+obj 1629
+ote 1628
+unc 1627
+asu 1623
+_ay 1614
+rci 1610
+equ 1609
+rna 1609
+cep 1608
+nco 1605
+ing 1599
+mac 1597
+bor 1589
+agr 1581
+mej 1581
+mil 1580
+uto 1578
+gru 1575
+ase 1573
+hec 1573
+apl 1564
+orq 1563
+mic 1562
+yor 1561
+rga 1557
+rit 1557
+cit 1554
+ich 1552
+abr 1550
+iga 1549
+cri 1548
+ato 1547
+evo 1541
+nit 1541
+ive 1540
+ine 1537
+mba 1535
+omb 1535
+vot 1534
+pio 1532
+mat 1528
+pun 1527
+uri 1526
+cur 1525
+tec 1525
+lti 1518
+sad 1517
+és_ 1517
+bem 1516
+bas 1512
+_us 1510
+nis 1509
+osa 1509
+hem 1508
+hum 1500
+_oc 1498
+bla 1496
+isp 1496
+aho 1494
+jor 1478
+así 1476
+rde 1476
+_aq 1475
+anz 1470
+red 1468
+sul 1466
+xis 1462
+eng 1454
+sum 1448
+uis 1447
+apa 1445
+orr 1444
+ayu 1442
+cum 1439
+quí 1436
+rto 1434
+ite 1433
+_bu 1431
+rot 1430
+yud 1429
+eto 1424
+noc 1424
+die 1420
+ian 1420
+pal 1418
+ulo 1416
+ibu 1407
+val 1403
+arí 1402
+emá 1402
+_ev 1401
+adi 1401
+sca 1400
+iud 1392
+ciu 1386
+alt 1380
+bit 1378
+cab 1378
+sun 1375
+fra 1374
+_at 1373
+_fe 1361
+van 1359
+esd 1358
+ego 1353
+he_ 1353
+sal 1353
+sde 1352
+aut 1349
+erá 1346
+poy 1341
+lig 1338
+jer 1331
+teg 1331
+nem 1326
+nóm 1323
+ruc 1319
+oco 1311
+uta 1310
+_pi 1308
+aya 1306
+qué 1306
+rom 1306
+upu 1304
+spu 1302
+gue 1300
+tán 1300
+ibe 1299
+mid 1296
+rtu 1293
+il_ 1292
+aña 1289
+onó 1286
+plo 1284
+ife 1280
+_af 1276
+dim 1272
+cim 1271
+ño_ 1271
+log 1268
+ómi 1268
+lus 1263
+ué_ 1250
+uid 1244
+sam 1238
+oli 1232
+def 1231
+_go 1228
+ept 1227
+lis 1227
+isc 1225
+obs 1220
+til 1218
+mad 1213
+gio 1212
+aro 1211
+cup 1209
+lev 1208
+egl 1204
+rra 1204
+usi 1199
+cil 1195
+ba_ 1191
+aca 1188
+vez 1188
+sla 1184
+_és 1183
+nsp 1178
+inv 1177
+rlo 1176
+tom 1174
+_tu 1166
+gla 1166
+ill 1165
+odr 1163
+mpa 1161
+spa 1161
+eña 1157
+obi 1155
+odi 1155
+is_ 1152
+pes 1150
+hoy 1148
+ted 1146
+var 1141
+día 1140
+nsu 1140
+rco 1138
+nam 1136
+_yo 1131
+rvi 1131
+cap 1128
+rri 1127
+nif 1124
+uel 1121
+eja 1120
+udi 1119
+pin 1115
+tud 1114
+vel 1112
+tuc 1107
+uso 1106
+vic 1106
+sem 1105
+últ 1105
+ipa 1103
+dop 1100
+fre 1098
+aja 1097
+aus 1097
+gas 1096
+ipi 1094
+pid 1089
+exc 1086
+det 1083
+_úl 1082
+_gu 1077
+mes 1077
+zo_ 1077
+bri 1075
diff --git a/tika-core/src/main/resources/org/apache/tika/language/et.ngp b/tika-core/src/main/resources/org/apache/tika/language/et.ngp
new file mode 100644
index 0000000000..c5d4096690
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/et.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+se_ 21814
+mis 19747
+ise 19736
+ja_ 17655
+te_ 17213
+use 16214
+_ja 15845
+st_ 13526
+est 13298
+ud_ 13260
+ste 13210
+sta 12994
+_ko 12908
+ust 12804
+ast 11912
+ist 11713
+ami 11710
+_ka 11705
+le_ 11520
+dus 11464
+on_ 10832
+ne_ 10685
+_te 10569
+sel 10497
+tus 10458
+ine 10055
+_va 9735
+end 9638
+es_ 9627
+_on 9512
+ks_ 9494
+de_ 9290
+and 9066
+us_ 9013
+lis 8954
+nda 8754
+_se 8736
+id_ 8699
+aja 8273
+eri 8195
+ed_ 8156
+ava 8116
+sti 8109
+lik 8028
+_ee 7949
+el_ 7931
+min 7913
+ga_ 7697
+val 7636
+tud 7571
+ti_ 7392
+tee 7203
+ali 7197
+ate 7136
+_ta 7108
+ing 7031
+ele 6956
+ees 6954
+ide 6935
+_ku 6890
+lt_ 6750
+is_ 6643
+kon 6565
+da_ 6556
+tsi 6474
+töö 6444
+ndu 6377
+eks 6338
+ete 6334
+as_ 6328
+aks 6245
+_ra 6227
+_ma 6185
+ad_ 6040
+tam 5993
+_ar 5952
+atu 5921
+_võ 5914
+eer 5902
+iku 5846
+aas 5743
+_vä 5723
+_ni 5677
+_in 5534
+sed 5525
+tat 5511
+_mi 5382
+nna 5339
+uur 5295
+met 5180
+dam 5128
+või 5104
+_pr 5064
+_to 5017
+_ol 5016
+_me 4954
+ren 4867
+lus 4818
+oli 4795
+tme 4751
+_tö 4749
+sek 4747
+ega 4735
+ng_ 4702
+_jä 4678
+_su 4642
+tte 4565
+imi 4564
+lii 4557
+_tu 4526
+eva 4520
+ata 4480
+kes 4435
+ses 4423
+_li 4335
+_sa 4331
+ite 4320
+tel 4309
+stu 4294
+oon 4263
+koo 4259
+al_ 4256
+are 4251
+ade 4247
+teg 4239
+_et 4214
+tse 4206
+oni 4202
+_ke 4195
+kas 4179
+rit 4176
+tes 4174
+tav 4159
+_pa 4130
+ita 4064
+nin 4040
+sus 4033
+emi 4025
+maa 4001
+aal 3976
+ole 3969
+eta 3968
+ta_ 3899
+ili 3886
+vas 3881
+vad 3868
+asu 3852
+ool 3842
+ada 3756
+ka_ 3737
+ema 3701
+ma_ 3701
+vus 3665
+vat 3638
+pro 3621
+_põ 3618
+itu 3616
+ndi 3609
+si_ 3609
+na_ 3582
+ima 3543
+koh 3515
+nud 3507
+rii 3506
+ald 3483
+ama 3465
+ab_ 3461
+kse 3452
+uri 3444
+ngu 3439
+kus 3433
+its 3425
+ku_ 3420
+uta 3405
+ini 3372
+des 3367
+suu 3352
+ika 3342
+_si 3321
+jan 3315
+lit 3309
+esk 3307
+ni_ 3307
+_aa 3296
+lin 3277
+et_ 3261
+eet 3257
+ioo 3251
+_el 3248
+lle 3248
+ime 3245
+loo 3238
+ala 3235
+sio 3229
+sut 3227
+ekt 3224
+umi 3223
+_ül 3208
+ood 3198
+maj 3176
+mee 3166
+inn 3135
+_ha 3124
+onn 3102
+jää 3093
+_pe 3089
+_al 3085
+tak 3061
+_os 3055
+elt 3036
+ule 3026
+kui 3025
+eli 3019
+ett 3018
+_re 3000
+utu 2982
+tik 2977
+_ju 2941
+ell 2940
+ter 2893
+ene 2884
+too 2883
+_pi 2879
+li_ 2868
+võt 2854
+ase 2835
+väl 2832
+lem 2826
+str 2816
+saa 2804
+_po 2803
+_a_ 2790
+mus 2784
+kti 2773
+tas 2768
+nis 2763
+_an 2756
+gus 2738
+see 2736
+_so 2718
+etu 2709
+ik_ 2699
+igi 2690
+va_ 2683
+tul 2671
+di_ 2670
+_ri 2667
+mat 2634
+ure 2629
+õim 2624
+alt 2622
+alu 2621
+mal 2615
+tal 2602
+ent 2600
+me_ 2592
+gu_ 2569
+sse 2569
+osa 2564
+_tä 2548
+kku 2529
+idu 2525
+rim 2494
+ida 2493
+äät 2492
+ots 2490
+esi 2478
+sis 2476
+ätm 2474
+lda 2473
+oma 2473
+eis 2467
+arv 2463
+ahe 2456
+rin 2454
+lli 2452
+kog 2450
+ööt 2450
+eel 2446
+hen 2440
+kor 2439
+ori 2439
+gi_ 2428
+eid 2422
+ege 2421
+_ne 2419
+äär 2407
+iti 2391
+rak 2391
+_üh 2385
+tev 2383
+_la 2378
+aga 2368
+_kõ 2360
+isa 2355
+all 2354
+oos 2354
+ike 2347
+lev 2341
+ead 2314
+ri_ 2312
+hin 2307
+ind 2304
+_es 2300
+ogu 2293
+las 2290
+ats 2288
+iit 2282
+_er 2274
+rah 2273
+ond 2272
+adu 2255
+evõ 2245
+nim 2234
+set 2231
+jal 2225
+ati 2224
+pea 2219
+iik 2218
+ari 2201
+põl 2189
+lek 2188
+_ki 2183
+kaa 2172
+lja 2168
+gev 2164
+iig 2159
+iir 2159
+eed 2153
+uma 2151
+ude 2141
+tsu 2134
+ui_ 2132
+kul 2126
+tis 2117
+tea 2116
+roo 2114
+ke_ 2111
+_as 2097
+tid 2097
+_mu 2093
+ikk 2089
+pii 2089
+ei_ 2073
+ani 2072
+seg 2072
+ute 2064
+dad 2055
+oet 2053
+mas 2043
+nde 2043
+nik 2029
+evu 2025
+ost 2025
+mes 2021
+_ei 2019
+jär 2012
+nts 2009
+tek 2009
+tur 2003
+sei 2000
+tab 1996
+eem 1984
+ves 1962
+tad 1948
+nõu 1940
+sid 1934
+_pu 1929
+_i_ 1921
+toe 1921
+del 1915
+_kä 1911
+ähe 1908
+_om 1906
+ess 1902
+älj 1899
+ran 1896
+_e_ 1887
+jat 1885
+la_ 1885
+mi_ 1882
+tuu 1872
+ale 1867
+põh 1864
+ant 1854
+rid 1854
+ärg 1847
+vah 1844
+pol 1843
+_en 1841
+tii 1834
+par 1829
+uli 1828
+dat 1826
+iga 1823
+lan 1815
+ets 1814
+isi 1814
+sii 1813
+oht 1807
+_lo 1800
+_ve 1799
+res 1789
+_vi 1788
+_st 1779
+mid 1778
+vii 1778
+rat 1777
+iiv 1764
+odu 1764
+oha 1764
+lse 1759
+_uu 1749
+_hi 1740
+sam 1740
+med 1735
+ame 1734
+il_ 1729
+sal 1727
+imu 1715
+olu 1709
+ras 1708
+ede 1706
+sea 1694
+usl 1690
+ia_ 1689
+nev 1687
+usi 1687
+_le 1686
+tlu 1686
+tu_ 1684
+nen 1679
+teh 1675
+iva 1669
+soo 1668
+mak 1667
+llu 1662
+sli 1653
+eda 1651
+aid 1650
+_lä 1649
+nd_ 1649
+poo 1648
+ul_ 1648
+ane 1646
+iis 1643
+art 1641
+juh 1641
+oot 1638
+egi 1630
+kko 1630
+üle 1630
+mil 1629
+sem 1623
+mit 1620
+_na 1618
+ord 1618
+_mä 1616
+anu 1616
+tle 1611
+asi 1608
+mär 1608
+rgi 1605
+at_ 1603
+ris 1598
+sit 1598
+rra 1589
+uud 1589
+_nõ 1585
+gia 1579
+kat 1579
+een 1577
+inf 1575
+hel 1570
+etm 1566
+sia 1564
+ära 1563
+_tõ 1560
+tmi 1556
+äit 1542
+_s_ 1541
+sak 1533
+tei 1532
+ara 1527
+hal 1525
+har 1520
+he_ 1518
+õig 1516
+aad 1515
+uut 1514
+_mõ 1512
+muu 1512
+ake 1509
+als 1504
+orr 1504
+tra 1502
+eur 1501
+_kü 1498
+_eu 1496
+õi_ 1496
+ral 1493
+taj 1491
+ken 1482
+sa_ 1478
+uro 1477
+uru 1477
+oom 1475
+ill 1472
+raa 1466
+aig 1464
+isk 1464
+enu 1460
+ige 1460
+era 1456
+nem 1456
+ese 1454
+ulu 1454
+em_ 1453
+skk 1453
+aar 1446
+ium 1444
+jad 1441
+tor 1440
+ion 1436
+per 1434
+eng 1423
+ult 1423
+uko 1420
+ühi 1420
+sva 1413
+und 1411
+aka 1410
+gra 1407
+ien 1402
+let 1401
+vaj 1401
+kõi 1398
+iaa 1397
+dis 1394
+ldu 1393
+tsa 1392
+ina 1382
+_t_ 1375
+gut 1375
+tru 1370
+eti 1366
+ee_ 1365
+eku 1364
+kid 1359
+uht 1359
+hai 1358
+tar 1355
+jek 1354
+dav 1348
+udu 1347
+ahv 1344
+eld 1344
+_kr 1341
+oog 1341
+his 1336
+nat 1333
+väh 1332
+usa 1330
+elu 1326
+kli 1321
+kut 1321
+eb_ 1320
+toi 1320
+du_ 1319
+esm 1317
+täi 1315
+sen 1306
+uss 1302
+uva 1299
+sim 1295
+hta 1293
+aam 1292
+edi 1291
+ela 1291
+võr 1291
+ruk 1287
+_nä 1284
+vis 1284
+les 1282
+õtt 1281
+oor 1279
+gil 1278
+van 1277
+ki_ 1275
+usk 1270
+rve 1263
+ogi 1262
+iid 1261
+mää 1261
+asa 1259
+igu 1259
+õpp 1245
+iim 1244
+iks 1244
+ile 1244
+isu 1242
+rdi 1241
+akt 1239
+nas 1238
+üsi 1236
+dit 1230
+tet 1227
+kal 1226
+riu 1226
+ako 1224
+asv 1224
+lum 1220
+_th 1215
+ram 1215
+ukt 1213
+aot 1212
+lat 1208
+rvi 1208
+iko 1204
+ktu 1204
+ogr 1204
+olo 1203
+sin 1202
+nus 1200
+erv 1197
+it_ 1194
+tag 1194
+abi 1192
+ait 1191
+smä 1191
+tri 1191
+_is 1189
+oop 1187
+omi 1175
+aa_ 1169
+nve 1167
+ain 1162
+rio 1160
+lu_ 1154
+amm 1153
+ge_ 1153
+net 1150
+nte 1144
+ühe 1144
+_he 1143
+hul 1143
+kin 1141
+reg 1141
+mad 1133
+uid 1133
+re_ 1131
+opa 1129
+una 1129
+taa 1126
+õll 1126
+rtu 1117
+er_ 1116
+iin 1111
+vee 1111
+ivi 1110
+men 1109
+kir 1108
+pa_ 1108
+aat 1106
+iki 1105
+oje 1105
+the 1105
+ksu 1104
+roj 1104
+vai 1103
+uts 1102
+kau 1101
+_õp 1100
+_ed 1099
+ub_ 1097
+ssi 1095
+rog 1094
+san 1094
+sku 1093
+õhi 1092
+aan 1090
+ska 1089
+kav 1085
+eni 1082
+nan 1077
+puu 1076
+det 1075
+sol 1074
+pri 1072
+ere 1071
+inu 1069
+üst 1068
+kum 1066
+kõr 1065
+nee 1062
+ppe 1061
+iss 1056
+eme 1054
+nii 1052
+ib_ 1050
+in_ 1048
+ang 1045
+sko 1043
+htu 1039
+tun 1039
+nil 1038
+ivs 1035
+sas 1032
+oll 1030
+has 1028
+ena 1027
+ire 1027
+kai 1026
+kom 1026
+spo 1026
+lul 1024
+egu 1023
+süs 1023
+ötu 1021
+_av 1020
+ato 1019
+por 1013
+rus 1012
+õte 1012
+kud 1010
+rem 1010
+rel 1009
+nal 1008
+aha 1007
+vää 1006
+näi 1003
+ehn 1002
+ve_ 1001
+avi 995
+pid 995
+rva 995
+avu 990
+_l_ 989
+täh 989
+aru 988
+til 988
+ii_ 982
+_pä 980
+ulg 980
+eal 976
+üld 976
+das 971
+seo 971
+_sü 970
+üks 968
+lee 967
+lla 967
+uni 967
+inv 960
+õrg 960
+abe 959
+nit 955
+pet 951
+naa 947
+ana 946
+_sõ 944
+käi 944
+tut 944
+_mo 942
+ive 941
+ree 941
+orm 936
+ber 935
+nni 935
+ven 935
+kva 932
+kto 930
+otl 930
+bi_ 923
+äht 923
+õle 923
+ont 920
+ann 918
+öta 917
+kun 916
+rja 915
+nfo 914
+jus 912
+ort 912
+öös 912
+emu 910
+ndl 909
+sot 909
+spe 909
+man 907
+smi 905
+_ai 901
+gis 896
+dud 895
+ärt 895
+nne 892
+ra_ 889
+sat 886
+tli 886
+tao 885
+nam 881
+lid 879
+mei 878
+oim 878
+_ot 877
+_ho 873
+kok 873
+kol 873
+rko 873
+gem 871
+pär 868
+av_ 865
+uba 864
+eeg 855
+ikl 847
+iri 845
+okk 845
+int 843
+kuu 842
+tum 841
+hte 840
+did 839
+_di 836
+ner 836
+lge 834
+ial 832
+nt_ 832
+lma 828
+pan 828
+nid 827
+_tr 826
+dme 826
+stö 826
+irj 822
+_lõ 821
+ass 821
+_de 820
+ngi 820
+ars 817
+lmi 817
+vit 817
+_ro 816
+amu 816
+mek 813
+ria 813
+han 811
+rav 811
+tan 809
+tit 806
+ism 802
+aud 800
+usv 800
+den 798
+jõu 798
+alg 797
+_ab 796
+sil 796
+eko 795
+uun 795
+õiv 794
+_n_ 792
+ha_ 792
+kan 790
+var 790
+hti 789
+itm 789
+mõj 789
+ona 789
+sul 789
+õju 789
+irk 787
+kur 787
+itl 786
+_no 785
+õik 785
+ndm 783
+of_ 783
+ilm 779
+uti 779
+vse 779
+odi 778
+olt 777
+õhj 773
+ila 770
+gas 769
+ju_ 767
+_fi 765
+äli 765
+_aj 764
+_ak 764
+_of 764
+lga 762
+aeg 761
+_ti 759
+an_ 759
+sik 757
+luk 756
+mmi 756
+ior 755
+lad 755
+nti 754
+tim 751
+ärk 750
+_u_ 747
+pal 745
+äie 744
+_kv 743
+kel 743
+for 742
+lam 742
+su_ 740
+uha 740
+kül 738
+alm 737
+gud 737
+dab 736
+ski 734
+ldi 731
+äbi 731
+otu 729
+rma 729
+suh 729
+_o_ 728
+_kl 726
+läb 725
+_hu 724
+hoi 720
+olm 720
+sto 720
+öst 720
+ula 717
+juu 716
+tin 715
+ügi 715
+hus 714
+len 714
+uvi 714
+hva 713
+_sä 712
+pla 712
+ksi 708
+rge 706
+usm 704
+osi 700
+noo 699
+_jo 698
+ekk 697
+jon 697
+dal 695
+eos 693
+vab 692
+um_ 690
+aba 687
+gik 686
+rik 686
+aav 683
+api 683
+ten 682
+_m_ 680
+lep 680
+vi_ 680
+_r_ 678
+fra 677
+jaa 677
+kts 676
+öö_ 676
+ilj 674
+ode 674
+eha 673
+kri 671
+onk 670
+rot 670
+nei 669
+sur 669
+nst 666
+aki 665
+ahu 662
+erg 662
+jul 662
+_d_ 660
+eka 660
+otm 660
+nes 658
+õus 658
+pin 657
+dko 655
+üli 654
+eas 653
+hõi 653
+oid 650
+ske 649
+itt 648
+eam 646
+sad 644
+rst 643
+ll_ 642
+_ag 641
+_ük 640
+ev_ 640
+väi 640
diff --git a/tika-core/src/main/resources/org/apache/tika/language/fa.ngp b/tika-core/src/main/resources/org/apache/tika/language/fa.ngp
new file mode 100644
index 0000000000..e86e27e4ee
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/fa.ngp
@@ -0,0 +1,1001 @@
+# NgramProfile generated at Sun Jun 15 15:17:44 IRDT 2014 for Apache Tika Language Identification
+ان_ 34459
+ند_ 15773
+نی_ 12790
+ری_ 12406
+_با 11822
+ین_ 11501
+های 11147
+انی 10770
+ای_ 10340
+ران 10094
+است 9846
+مان 9238
+_ال 9163
+ها_ 8765
+_بر 8513
+_کا 8460
+ید_ 8306
+یم_ 8287
+ار_ 8283
+ون_ 8244
+یان 8215
+ده_ 8205
+اری 7849
+یی_ 7834
+_در 7787
+_اس 7775
+ایی 7489
+_ما 7405
+ست_ 7374
+نه_ 7180
+اند 7113
+دار 7111
+تی_ 7097
+دی_ 6826
+کار 6646
+شان 6424
+رها 6258
+لی_ 6098
+_نا 6066
+_فر 6059
+ات_ 6000
+_سا 5901
+تان 5833
+_دا 5738
+وان 5616
+_پر 5565
+_خو 5537
+ستا 5387
+دان 5346
+ارا 5333
+_رو 5290
+انه 5223
+_ای 5222
+_می 5145
+ور_ 5145
+_ان 5134
+_مو 4986
+_سر 4836
+_دو 4813
+ال_ 4755
+_پا 4738
+_را 4721
+_وا 4659
+_بی 4653
+می_ 4589
+الی 4532
+یه_ 4488
+_کو 4476
+رد_ 4389
+_تا 4291
+وری 4233
+ردا 4167
+_سی 4144
+ندا 4126
+یست 4086
+_او 4080
+رای 4050
+خوا 4041
+یت_ 4039
+_تو 3989
+ارد 3964
+اد_ 3960
+ره_ 3931
+_نو 3882
+_نی 3874
+الا 3845
+_پی 3818
+نى_ 3813
+وار 3808
+رى_ 3743
+_دی 3737
+ام_ 3689
+یک_ 3689
+_بو 3673
+_سو 3637
+امی 3604
+یا_ 3533
+_گر 3529
+_ام 3528
+یرا 3512
+رین 3483
+ته_ 3466
+ورد 3462
+این 3460
+_مر 3446
+یر_ 3430
+نیا 3371
+اره 3336
+انت 3332
+ورا 3302
+ونی 3301
+ریا 3288
+بار 3286
+باز 3271
+گرا 3258
+تری 3242
+وی_ 3241
+زی_ 3238
+کی_ 3230
+مار 3226
+سی_ 3224
+_تر 3218
+بان 3196
+تر_ 3195
+را_ 3185
+دن_ 3181
+_ها 3156
+_کر 3151
+دها 3148
+_از 3144
+ود_ 3138
+_مت 3108
+نده 3089
+ندی 3089
+گی_ 3071
+ادی 3068
+ستی 3065
+ینی 3063
+له_ 3060
+ارت 3049
+_من 3034
+ولی 3012
+گان 3001
+برا 2969
+سان 2967
+بی_ 2950
+_مح 2939
+_ار 2903
+ازی 2896
+غیر 2883
+رند 2879
+رما 2864
+دید 2852
+یون 2848
+_مس 2818
+_غی 2810
+اتی 2795
+زار 2792
+نند 2778
+_پو 2775
+نگ_ 2774
+مای 2753
+یش_ 2753
+اور 2750
+اه_ 2737
+نها 2737
+ارو 2721
+_مع 2690
+انو 2681
+اها 2664
+تور 2662
+وس_ 2649
+انگ 2639
+_شا 2631
+_هم 2628
+فرا 2617
+ترا 2616
+انش 2605
+ایش 2605
+لان 2602
+میر 2594
+انس 2570
+_یا 2560
+مین 2556
+یل_ 2548
+دند 2522
+داد 2520
+انا 2515
+_لا 2514
+نا_ 2513
+_کن 2507
+اسی 2499
+یار 2496
+لا_ 2493
+کان 2491
+مه_ 2488
+از_ 2471
+_وی 2468
+یس_ 2448
+نان 2445
+رات 2434
+یری 2433
+راس 2430
+_کل 2422
+تار 2415
+سال 2415
+تى_ 2408
+_گو 2401
+نام 2401
+اما 2395
+وست 2389
+وند 2387
+گاه 2376
+ردی 2354
+رون 2336
+رم_ 2327
+یلی 2327
+ولا 2324
+نما 2322
+روز 2318
+اده 2275
+به_ 2274
+ساز 2271
+ستر 2253
+مون 2243
+دم_ 2239
+یند 2238
+ارن 2233
+_جا 2230
+یما 2223
+رو_ 2215
+یى_ 2206
+کرد 2196
+اس_ 2195
+گیر 2193
+_خا 2191
+گرد 2182
+_اب 2162
+اخت 2159
+ناس 2154
+اشت 2142
+هان 2142
+_ری 2140
+الم 2134
+خود 2134
+روی 2133
+اى_ 2126
+ربا 2117
+شی_ 2117
+تا_ 2115
+هار 2112
+انى 2106
+تون 2100
+رام 2091
+خان 2090
+گار 2089
+ول_ 2084
+_آن 2083
+_جو 2083
+یدا 2083
+_شو 2080
+در_ 2078
+_آر 2069
+اتو 2067
+رید 2057
+ینا 2049
+ابی 2048
+رت_ 2041
+لین 2032
+ما_ 2024
+ادا 2017
+_زی 2015
+مند 2015
+_اف 2006
+اب_ 2005
+رسا 2000
+پور 1998
+_بن 1995
+وال 1995
+بال 1988
+ادر 1982
+دى_ 1982
+شنا 1972
+_لو 1970
+تند 1964
+نش_ 1963
+اید 1962
+بود 1950
+_بل 1944
+راد 1943
+_لی 1931
+سیا 1926
+روا 1921
+درا 1914
+ابر 1912
+_شی 1911
+رست 1908
+وم_ 1907
+بیا 1904
+ینگ 1901
+_هو 1899
+یکا 1898
+_کی 1889
+یرو 1889
+_گا 1884
+ولو 1860
+دین 1856
+سید 1855
+ایت 1851
+_آم 1849
+رسی 1838
+زاد 1838
+یده 1836
+ارم 1827
+ابا 1825
+ایا 1825
+مور 1821
+_فا 1816
+اهی 1810
+سین 1800
+بین 1784
+نم_ 1784
+_مه 1782
+یدن 1782
+بری 1777
+تن_ 1777
+ردن 1776
+_به 1775
+ایى 1774
+یدی 1773
+ارک 1770
+وها 1769
+هی_ 1768
+ریم 1767
+_بد 1764
+زان 1764
+دال 1755
+نگی 1753
+_شه 1750
+ایر 1745
+ریک 1742
+_فی 1741
+فرو 1738
+لى_ 1733
+شهر 1728
+من_ 1728
+تها 1721
+ویی 1720
+_مد 1714
+ارس 1714
+ارش 1711
+ـــ 1710
+ورت 1709
+لیس 1704
+لیا 1700
+واه 1700
+نگا 1693
+اسا 1692
+لات 1687
+تما 1684
+رده 1682
+رفت 1682
+ودی 1679
+ترو 1678
+خور 1676
+رال 1676
+گری 1675
+باد 1673
+رش_ 1670
+حمد 1669
+لام 1664
+گر_ 1664
+دری 1663
+دگا 1656
+ورو 1652
+روس 1648
+نور 1647
+دور 1646
+لو_ 1646
+پار 1646
+ریس 1644
+یو_ 1642
+لای 1640
+مال 1637
+ایم 1634
+فری 1633
+سم_ 1632
+ندگ 1628
+زند 1624
+دا_ 1620
+وره 1619
+دست 1613
+ازا 1608
+انم 1607
+افت 1606
+یز_ 1605
+ندر 1604
+دای 1603
+رود 1603
+_کش 1595
+راب 1593
+تاب 1589
+تم_ 1574
+بای 1568
+_هی 1564
+وسی 1562
+بند 1561
+ستو 1561
+نگر 1560
+نوا 1554
+وای 1554
+تین 1550
+جان 1550
+ارگ 1549
+_هر 1548
+شور 1547
+رگر 1545
+_مش 1544
+مات 1544
+_آل 1542
+راه 1542
+یرم 1540
+بور 1534
+یای 1531
+الو 1529
+توا 1527
+شت_ 1524
+_یو 1512
+امو 1505
+درو 1505
+فی_ 1501
+_خر 1500
+ندو 1499
+نو_ 1496
+یها 1495
+_نم 1489
+_گل 1488
+یات 1483
+ورن 1475
+وما 1475
+نت_ 1470
+_ور 1465
+ماد 1464
+ونا 1464
+نوی 1463
+سون 1462
+_دل 1452
+کور 1451
+پرو 1445
+دیم 1444
+یشا 1444
+رار 1440
+اوی 1438
+نیم 1438
+برگ 1435
+_قا 1434
+مرد 1434
+راف 1430
+وا_ 1430
+_تی 1429
+یتا 1427
+_گی 1426
+یلا 1418
+نیک 1415
+ابو 1411
+شید 1400
+اک_ 1398
+مید 1398
+کرا 1395
+وز_ 1394
+برو 1390
+ستن 1390
+نیس 1390
+یاد 1389
+روش 1387
+فت_ 1386
+لار 1386
+نید 1386
+_نگ 1380
+انن 1377
+ومی 1377
+نای 1376
+وین 1375
+یسم 1373
+که_ 1372
+قی_ 1371
+_تن 1369
+داش 1363
+برد 1361
+میل 1357
+باش 1355
+محم 1352
+دو_ 1351
+کلا 1351
+ویا 1347
+_فو 1336
+الت 1336
+تو_ 1333
+نشا 1333
+_مج 1328
+نار 1328
+وزی 1328
+_اش 1325
+مدا 1323
+زه_ 1317
+اتر 1312
+کا_ 1310
+انک 1306
+_بخ 1304
+اله 1299
+بها 1298
+_سن 1296
+اسک 1296
+ائی 1295
+مى_ 1294
+دیا 1292
+ویس 1291
+گذا 1288
+نتی 1284
+راک 1280
+بر_ 1278
+کام 1277
+رور 1275
+وف_ 1272
+زیر 1266
+_و_ 1265
+واس 1264
+لند 1262
+یگر 1261
+ودا 1259
+راز 1258
+_اک 1257
+یلو 1255
+آور 1254
+تاد 1254
+تش_ 1254
+رتر 1254
+_اع 1252
+اکا 1251
+دام 1247
+_چا 1244
+پرس 1243
+_مق 1242
+کو_ 1242
+مرا 1238
+امه 1237
+داز 1237
+لیو 1237
+ارى 1235
+_آب 1232
+_مل 1231
+بدا 1228
+رنا 1228
+ماه 1226
+مست 1220
+نجا 1220
+دگی 1218
+سرا 1218
+برن 1217
+تای 1214
+یتی 1214
+وش_ 1211
+_ات 1205
+دون 1204
+یاب 1204
+تیک 1199
+ریز 1196
+ونه 1196
+_بگ 1194
+زها 1193
+تیا 1192
+عی_ 1190
+وشی 1190
+یزی 1185
+_زا 1184
+اوا 1184
+وت_ 1184
+_نش 1183
+هرا 1180
+با_ 1173
+ینو 1173
+اگر 1172
+میا 1172
+ورم 1172
+کال 1172
+ادو 1171
+سیو 1171
+_شر 1169
+دیو 1166
+_کم 1165
+سای 1165
+ارب 1163
+یسی 1156
+روم 1155
+_قر 1153
+اعت 1153
+ریو 1153
+_هن 1150
+رکا 1149
+وکا 1148
+تیم 1147
+شیر 1147
+_اح 1145
+یور 1145
+_رس 1144
+اشی 1143
+الد 1142
+امر 1142
+لاس 1142
+هم_ 1141
+یکو 1141
+کری 1140
+ازم 1139
+یاس 1139
+لما 1138
+نیو 1137
+یمی 1137
+تال 1134
+علی 1132
+_دس 1131
+رمی 1126
+رتو 1125
+الب 1124
+_ند 1123
+اکو 1122
+گوی 1120
+یوا 1118
+متر 1117
+رزا 1115
+نین 1115
+کند 1115
+_حا 1114
+سکو 1108
+پای 1108
+اکس 1107
+مدی 1104
+ندن 1103
+فتا 1100
+بات 1097
+_بس 1096
+رخو 1096
+پیر 1095
+اول 1092
+شد_ 1086
+کس_ 1086
+_عل 1085
+ذار 1081
+ربی 1081
+هر_ 1080
+هاى 1078
+_زن 1077
+رنگ 1077
+ویر 1076
+_تع 1073
+_شک 1073
+ردو 1071
+شین 1070
+نتر 1069
+هاس 1068
+نس_ 1067
+هند 1066
+یچ_ 1066
+_عا 1064
+الک 1059
+رتی 1058
+ازن 1057
+جوا 1056
+رتا 1055
+وید 1054
+مری 1052
+_آو 1050
+مسا 1047
+رشا 1045
+لیت 1045
+ینه 1043
+افی 1042
+نتا 1040
+_شن 1039
+_فل 1039
+افر 1039
+_جن 1038
+کنن 1037
+_اد 1035
+_پس 1035
+وى_ 1035
+نات 1032
+واد 1031
+وبا 1029
+فیل 1028
+وتو 1028
+دنی 1026
+دیر 1025
+_ول 1023
+ازد 1023
+باب 1021
+شاه 1020
+گون 1018
+واب 1017
+وبی 1016
+رنی 1014
+سار 1014
+واز 1014
+یره 1014
+لوی 1013
+کنی 1013
+کول 1013
+اتا 1011
+اهر 1011
+یال 1011
+یام 1011
+ودن 1010
+رگ_ 1009
+یزا 1009
+_اخ 1007
+رمن 1007
+ریت 1000
+ریه 999
+مت_ 999
+کرو 999
+یبا 998
+سى_ 997
+اسپ 996
+یرن 996
+_ده 995
+_سل 995
+_عم 995
+_صد 992
+تول 990
+زای 990
+اش_ 989
+اون 988
+وئی 987
+ماس 986
+_مخ 984
+ایس 984
+ایل 984
+ربر 983
+_عب 982
+سته 982
+نون 982
+پول 982
+_تم 981
+_شم 981
+یدم 976
+سکی 973
+شار 973
+پیش 970
+وتی 964
+لت_ 963
+دوس 959
+کلی 959
+منا 958
+سن_ 957
+لم_ 957
+بیر 955
+کاس 953
+وزا 951
+وه_ 950
+دش_ 949
+_نف 948
+رک_ 947
+_بش 945
+کات 945
+ستم 944
+هاد 944
+رس_ 943
+روب 943
+ودر 943
+وسا 943
+ویل 943
+نتو 938
+سلا 937
+_ضد 936
+_نب 935
+کتر 934
+درس 931
+جی_ 930
+فر_ 930
+ارز 929
+یف_ 929
+بى_ 928
+ونت 928
+باس 927
+_چن 926
+شما 925
+گى_ 923
+_م_ 918
+امت 917
+_تک 915
+اف_ 913
+داو 913
+زما 912
+نفر 909
+اکی 907
+درم 907
+خت_ 906
+ناب 906
+هام 906
+سه_ 903
+موز 903
+رن_ 902
+_پل 901
+روت 901
+سند 901
+_آی 900
+لوا 900
+ذیر 898
+دیگ 896
+سیم 896
+شه_ 895
+کى_ 894
+نست 893
+هزا 893
+پان 892
+دما 891
+ورس 890
+دود 888
+شتی 888
+_وم 887
+_بز 886
+هما 886
+ائو 884
+میز 883
+_پن 882
+_چی 882
+ونو 882
+کین 882
+پرد 879
+زى_ 878
+یوس 877
+تشا 876
+چه_ 876
+ایو 875
+رگا 874
+اسم 871
+راو 870
+پذی 870
+یب_ 870
+_آس 868
+قرا 868
+نیت 868
+فور 867
+اهد 866
+بلا 865
+ردم 864
+_اص 863
+پرا 860
+آمد 859
+ادگ 857
+وده 856
+گفت 856
+شکا 855
+لید 854
+ازه 853
+یگا 851
+هری 850
+ابه 847
+رز_ 847
+زین 847
+قه_ 847
+لور 847
+چی_ 847
+_بب 846
+ویت 846
+یکی 846
+اق_ 844
+شای 844
+الع 843
+دول 843
+شون 843
+فرم 842
+وجو 842
+مول 840
+_خی 835
+خدا 833
+زد_ 833
+مهر 833
+لون 832
+مام 830
+وتا 829
+جار 828
+مد_ 828
+ینت 828
+_اق 826
+وتر 826
+_آز 825
+سرو 823
+میت 823
+سیر 822
+آبا 819
+اشا 815
+درب 815
+رخا 815
+ناه 814
+تبا 813
+سوا 813
+ملا 812
+_مک 809
+وک_ 808
+کتا 808
+رضا 807
+سور 807
+ناک 807
+دوا 806
+پری 806
+ادم 805
+رسو 805
+ورز 804
+موا 801
+نال 801
+وب_ 801
+وشا 800
+_خد 799
+امب 798
+مود 798
+رمو 797
+امل 795
+مشا 795
+الح 793
+همی 793
+بست 792
+لیم 791
+ونگ 791
+توم 790
+فان 790
+_نظ 789
+بید 789
+داس 789
+قان 788
+کشو 788
+_گذ 785
+کر_ 785
+_ون 784
+عه_ 782
+کای 782
+یرد 782
+هنگ 780
+ورش 780
+ورک 780
+اکر 779
+نظر 779
+یدر 778
+_بک 777
+_شد 776
+چند 776
+تقا 773
+نبا 773
+_وس 772
+رکو 772
+لد_ 772
+مها 772
+کن_ 772
+الن 771
+ردر 771
+موس 770
+نیز 770
+یاز 769
+_ه_ 767
+مش_ 767
+یتو 767
+زیا 765
+کسی 764
+اپی 763
+شتر 763
+نوش 763
+هست 763
+_چر 761
+_مب 760
+ستگ 760
+_ا_ 759
+ابل 759
+_تق 758
+لوم 758
+ناد 758
+یمو 758
+_جی 757
+وکو 756
+_تح 755
+امپ 754
+_رف 753
+بخش 753
+برت 753
+_زو 752
+شود 752
+نسی 752
+امد 748
+دگر 748
+_یک 747
+اجر 747
+او_ 746
+فار 746
+_مص 745
+توس 745
+_چه 744
+اسل 744
+هور 744
+هوا 742
+الس 741
+اکت 741
+یوی 741
diff --git a/tika-core/src/main/resources/org/apache/tika/language/fi.ngp b/tika-core/src/main/resources/org/apache/tika/language/fi.ngp
new file mode 100644
index 0000000000..27fded4d9e
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/fi.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+en_ 106131
+in_ 58268
+ta_ 55626
+tä_ 53283
+an_ 53187
+ist 47697
+sta 43336
+on_ 43007
+ja_ 39277
+_ja 34833
+ett 34518
+ttä 34382
+ise 34375
+sa_ 31387
+tta 31331
+sen 31131
+_on 30416
+_va 29376
+_jo 27765
+mis 27422
+lis 27257
+aan 26778
+ssa 26557
+_ko 26334
+ksi 25541
+itt 25386
+ais 25194
+än_ 25023
+isi 23975
+est 23320
+_tä 22725
+_ta 22098
+taa 21547
+_si 21503
+lla 21331
+_ka 21096
+_et 20955
+aa_ 20905
+lli 20722
+si_ 20631
+ten 19829
+ste 19820
+_se 19749
+den 19664
+_ol 19431
+stä 19131
+iss 19127
+ell 19029
+me_ 18781
+een 18638
+ast 18147
+lle 17984
+ia_ 17761
+uks 17657
+itä 17586
+kse 17163
+mme 17101
+ill 16970
+_ku 16949
+_mi 16823
+voi 16728
+le_ 16698
+_to 16348
+at_ 16024
+sia 15940
+la_ 15811
+all 15602
+tel 15469
+ti_ 15218
+ois 15157
+sti 14987
+ust 14795
+ses 14778
+val 14766
+iin 14638
+ään 14348
+sit 14245
+et_ 14188
+nen 14129
+oit 14082
+ole 13982
+_pa 13728
+ava 13727
+mie 13701
+toi 13651
+tte 13598
+utt 13595
+ine 13313
+tei 13274
+_tu 13273
+ka_ 13210
+sii 13167
+tav 13165
+kan 13159
+täm 13097
+aik 12891
+ide 12841
+_sa 12591
+ite 12212
+kin 12161
+ent 12138
+vat 12064
+oll 12062
+lai 12050
+_jä 12011
+eis 11981
+omi 11784
+eur 11749
+_mu 11697
+tää 11692
+ain 11679
+_me 11653
+_ma 11650
+sä_ 11514
+ssä 11466
+tam 11435
+lä_ 11242
+stu 11222
+_eu 11214
+kai 11196
+iit 11194
+tet 11103
+ämä 11095
+ien 11081
+ää_ 10806
+_yh 10753
+maa 10734
+oli 10717
+_ei 10690
+llä 10687
+_pu 10684
+min 10678
+_te 10528
+suu 10307
+ess 10289
+men 10188
+alt 10177
+uro 10157
+ion 9915
+_ha 9860
+oim 9812
+emm 9786
+roo 9786
+ita 9692
+sio 9489
+tee 9445
+_ke 9393
+oop 9353
+nta 9269
+ikk 9224
+ans 9216
+ott 9213
+ude 9208
+hte 9161
+ssi 9141
+arv 9081
+pan 8995
+yht 8981
+tuk 8825
+sel 8791
+alu 8765
+_as 8758
+kom 8684
+_vo 8664
+eri 8658
+ike 8619
+imi 8605
+tti 8560
+iel 8555
+sin 8480
+uut 8383
+ei_ 8363
+lta 8338
+yks 8321
+_my 8216
+ost 8198
+ami 8070
+tar 8014
+se_ 8001
+_al 7974
+myö 7965
+na_ 7923
+tai 7911
+täv 7907
+kaa 7906
+_ai 7886
+_kä 7856
+set 7850
+opa 7849
+tus 7841
+vas 7747
+_su 7738
+_ti 7713
+asi 7683
+sis 7671
+_hy 7586
+see 7577
+ala 7524
+nne 7523
+par 7490
+äse 7465
+tin 7453
+_ra 7450
+kos 7409
+_ni 7394
+_li 7360
+aat 7266
+jäs 7242
+_en 7198
+eid 7197
+nsa 7196
+int 7180
+tii 7157
+_pe 7131
+un_ 7123
+ass 7122
+_ar 7116
+vai 7115
+puh 7108
+nna 7086
+hal 7084
+isu 7001
+per 6960
+att 6924
+lit 6913
+hdo 6893
+_la 6884
+ali 6869
+saa 6868
+nti 6845
+_vi 6836
+muk 6823
+ity 6822
+elm 6815
+esi 6812
+ika 6810
+oik 6776
+jot 6699
+lin 6684
+ann 6683
+yös 6678
+äyt 6660
+jen 6637
+joi 6633
+tie 6626
+_nä 6566
+rit 6551
+hyv 6530
+_vä 6529
+nii 6492
+kun 6440
+lma 6438
+ioi 6408
+nki 6382
+oni 6379
+osk 6377
+_pi 6371
+_es 6358
+ark 6352
+ama 6333
+yvä 6320
+_pä 6266
+eet 6266
+sal 6257
+del 6245
+ävä 6228
+oid 6226
+pää 6208
+lii 6182
+ske 6176
+man 6170
+_po 6160
+ät_ 6152
+_er 6149
+va_ 6146
+vaa 6117
+us_ 6083
+uud 6056
+ant 6053
+äis 6009
+rvo 5977
+keu 5971
+rki 5942
+eli 5928
+äll 5924
+sto 5872
+iet 5871
+ene 5840
+nte 5829
+tio 5781
+ös_ 5773
+väl 5753
+_so 5744
+kui 5738
+ttu 5738
+mei 5711
+_ne 5695
+aja 5690
+män 5673
+ame 5657
+uhe 5631
+isa 5604
+vuo 5591
+ut_ 5587
+lam 5586
+oma 5565
+ytt 5558
+_ki 5554
+tka 5541
+dän 5525
+mit 5504
+eva 5492
+rla 5492
+enk 5470
+alo 5460
+imm 5451
+mää 5445
+uol 5435
+_os 5408
+ele 5355
+arl 5345
+sek 5341
+sil 5322
+_hu 5300
+ni_ 5297
+iä_ 5296
+itu 5293
+ova 5288
+elu 5286
+mä_ 5259
+vät 5258
+apa 5245
+kka 5244
+_he 5223
+unn 5201
+käy 5187
+san 5176
+oht 5169
+kki 5166
+oin 5156
+inn 5147
+laa 5122
+net 5115
+_ky 5101
+ehd 5067
+pol 5052
+van 5049
+ano 5036
+kä_ 5027
+tän 5013
+idä 5008
+työ 4985
+lem 4964
+lti 4938
+lua 4937
+tan 4921
+emi 4907
+ute 4896
+isä 4889
+tun 4881
+ön_ 4841
+enn 4839
+oka 4839
+äst 4827
+nee 4822
+_vu 4818
+ime 4817
+eks 4805
+var 4776
+tis 4751
+äli 4713
+nio 4694
+uka 4681
+sty 4675
+amm 4668
+uus 4660
+äks 4659
+nni 4644
+kes 4639
+muu 4576
+nin 4572
+vie 4569
+its 4563
+dot 4561
+tal 4550
+huo 4549
+uni 4541
+hta 4537
+eit 4522
+mai 4508
+tty 4481
+lue 4476
+osi 4454
+_lu 4445
+ota 4434
+jok 4428
+_un 4427
+_ed 4416
+iaa 4414
+kuu 4410
+kys 4397
+utu 4393
+iva 4376
+iik 4371
+_ov 4353
+teh 4340
+eru 4335
+äin 4333
+sku 4307
+oje 4287
+elt 4274
+osa 4268
+rus 4267
+uom 4256
+_ty 4252
+tul 4240
+ne_ 4239
+ote 4238
+taj 4235
+sim 4214
+len 4180
+ens 4177
+tse 4170
+jos 4167
+pit 4146
+yt_ 4140
+mat 4137
+tuu 4136
+pal 4096
+imu 4077
+nä_ 4068
+eil 4052
+des 4051
+_oi 4048
+esk 4035
+mer 4001
+ino 3999
+sää 3976
+tys 3965
+lan 3955
+ies 3926
+äät 3926
+hem 3915
+lee 3907
+nyt 3901
+aut 3896
+es_ 3893
+nis 3890
+täi 3888
+hin 3863
+täy 3840
+_an 3834
+mas 3830
+näi 3829
+kev 3827
+uur 3818
+ata 3817
+lev 3816
+neu 3807
+tek 3791
+les 3775
+äär 3772
+aal 3765
+koh 3760
+_eh 3749
+pai 3740
+ana 3736
+otk 3728
+uvo 3722
+_uu 3717
+euv 3715
+ati 3711
+ris 3706
+ina 3699
+ken 3691
+ian 3684
+yis 3681
+ua_ 3676
+vii 3641
+kau 3630
+ihe 3628
+lou 3628
+soi 3624
+joh 3606
+ämi 3600
+vä_ 3568
+ahd 3561
+stö 3561
+env 3555
+yst 3552
+uit 3542
+oa_ 3530
+kis 3525
+rke 3525
+dis 3518
+hen 3513
+oja 3511
+lmi 3505
+uot 3500
+tuo 3498
+puo 3494
+hän 3484
+sem 3483
+kut 3470
+ilm 3457
+aks 3452
+ltä 3452
+nka 3442
+ila 3438
+til 3433
+kei 3423
+ysy 3408
+erk 3391
+täs 3376
+aki 3363
+kol 3363
+jär 3360
+ail 3357
+ode 3344
+vos 3342
+loi 3335
+oks 3334
+ran 3332
+iti 3326
+eta 3325
+mmä 3325
+uun 3325
+väk 3325
+ton 3324
+opi 3316
+nut 3307
+jat 3302
+uin 3299
+oss 3288
+_py 3284
+aus 3271
+kii 3253
+iks 3244
+unt 3244
+li_ 3236
+ska 3231
+onn 3223
+ee_ 3198
+tap 3190
+ätt 3186
+elä 3169
+rje 3167
+eut 3166
+kas 3164
+nva 3160
+sym 3160
+onk 3141
+uva 3135
+käs 3134
+eti 3133
+eel 3125
+ulu 3115
+ppa 3099
+tyi 3096
+otu 3095
+atk 3092
+sop 3089
+lut 3084
+ihi 3079
+ivä 3079
+mmi 3078
+ink 3077
+jon 3067
+_sy 3062
+ntä 3044
+ema 3029
+nnö 3023
+nan 3019
+äne 3009
+ärj 3002
+io_ 2989
+kok 2988
+ull 2987
+rat 2984
+äri 2982
+ima 2978
+äss 2976
+ara 2973
+vin 2956
+keh 2954
+jes 2953
+vis 2949
+aka 2942
+luo 2942
+_el 2939
+rvi 2934
+ätö 2931
+uri 2928
+_ri 2915
+mut 2898
+ärk 2898
+_ny 2895
+kus 2894
+te_ 2881
+koi 2873
+_ve 2870
+ntö 2870
+ikä 2863
+oon 2840
+rin 2827
+hee 2826
+nsi 2824
+mah 2823
+äsi 2816
+tyy 2808
+_yk 2806
+ko_ 2805
+pim 2805
+ees 2803
+iis 2799
+_ot 2793
+jel 2790
+oko 2790
+hmi 2789
+dol 2787
+sam 2786
+tyk 2785
+ytä 2780
+nno 2776
+ein 2775
+yde 2773
+tto 2770
+hit 2764
+opp 2762
+tas 2743
+etu 2742
+kon 2742
+ai_ 2739
+_mo 2737
+ivi 2734
+ehi 2729
+_il 2727
+os_ 2726
+syy 2722
+kea 2718
+_lä 2711
+tu_ 2708
+vit 2695
+rah 2681
+yvi 2681
+aih 2676
+ase 2670
+aav 2668
+ri_ 2665
+sik 2665
+use 2661
+_yl 2657
+noi 2644
+yhd 2638
+nit 2635
+tum 2628
+ämm 2620
+kit 2615
+ohj 2603
+_ju 2595
+täl 2589
+ymy 2585
+kke 2582
+suo 2575
+_lo 2565
+ede 2565
+_it 2563
+eni 2558
+uis 2555
+siä 2554
+auk 2534
+oi_ 2531
+tär 2528
+ani 2526
+elv 2526
+kil 2524
+kee 2513
+iko 2511
+_hä 2509
+_ih 2500
+avo 2498
+nss 2494
+raa 2494
+uta 2489
+ki_ 2486
+umi 2467
+tur 2464
+kie 2459
+änt 2459
+eht 2456
+aas 2454
+ida 2454
+eik 2434
+ihm 2432
+ntt 2432
+oud 2420
+oil 2418
+sie 2415
+ryh 2403
+yty 2402
+ito 2393
+kul 2387
+evi 2386
+yy_ 2380
+iiv 2376
+keä 2374
+kal 2372
+ätä 2370
+pau 2367
+tod 2365
+tot 2365
+ank 2358
+ros 2356
+mal 2348
+det 2347
+ule 2344
+uod 2341
+uon 2326
+nai 2325
+usk 2325
+rkk 2323
+uul 2319
+ys_ 2317
+ena 2315
+_mä 2314
+etä 2314
+tia 2312
+aam 2310
+kem 2307
+ker 2307
+han 2299
+ias 2299
+avi 2292
+ete 2286
+tak 2283
+ter 2283
+kää 2277
+hde 2275
+tom 2273
+_no 2272
+pro 2265
+yön 2256
+ksy 2255
+läh 2245
+avu 2243
+vel 2239
+ait 2236
+hei 2217
+nto 2217
+ärä 2217
+mia 2216
+ria 2216
+tut 2212
+isk 2211
+yä_ 2193
+nes 2183
+rii 2183
+jan 2181
+htä 2180
+ähe 2178
+kir 2176
+nei 2172
+mio 2158
+inu 2154
+_us 2146
+ous 2144
+ake 2138
+ohd 2136
+rva 2122
+oiv 2106
+ulk 2103
+toj 2098
+uee 2093
+uu_ 2091
+nsä 2088
+ely 2084
+mon 2084
+ied 2083
+ält 2083
+irj 2080
+kko 2077
+vää 2069
+_ym 2065
+hoi 2062
+myk 2054
+mus 2053
+aha 2051
+tym 2050
+lau 2047
+ekä 2042
+_sä 2040
+kor 2034
+opu 2034
+inä 2031
+yyt 2031
+ttö 2030
+ski 2023
+änn 2022
+ma_ 2017
+rik 2010
+nal 2001
+tyv 1985
+eus 1983
+mik 1982
+to_ 1970
+mät 1969
+äni 1969
+_ry 1968
+lei 1966
+mui 1964
+tim 1958
+enä 1953
+tuv 1948
+lop 1946
+tau 1946
+yri 1945
+mil 1936
+näk 1936
+isö 1934
+seu 1931
+kti 1930
+uss 1929
+ymi 1928
+tös 1923
+iih 1916
+ate 1913
+ona 1908
+sei 1908
+vak 1903
+ura 1900
+sos 1897
+jä_ 1892
+iot 1887
+sva 1883
+vän 1879
+alv 1853
+önt 1852
+rja 1851
+mma 1849
+usi 1836
+iku 1829
+oso 1824
+änä 1817
+tui 1811
+noa 1809
+da_ 1808
+yhm 1804
+uai 1802
+nge 1799
+ini 1796
+hje 1792
+iso 1791
+ont 1784
+mak 1782
+_av 1773
+ert 1770
+vap 1768
+eto 1766
+uor 1763
+sov 1758
+mpä 1755
+daa 1754
+iid 1754
+mar 1754
+_ää 1753
+nnu 1752
+ea_ 1749
+not 1744
+jo_ 1739
+eud 1738
+_pr 1735
+päi 1734
+kat 1732
+nos 1732
+paa 1732
+ltt 1727
+uos 1724
+euk 1723
+aaj 1722
+_aj 1720
+tät 1718
+urv 1715
+rak 1711
+lus 1707
+dä_ 1706
+tön 1706
+yöt 1704
+ntu 1698
+aho 1695
+von 1695
+tyn 1693
+tua 1684
+mpi 1679
+is_ 1667
+aad 1661
+vir 1657
+väh 1655
+eiv 1646
+nom 1644
+ilt 1638
+lke 1634
+sai 1632
+ekt 1628
+ire 1628
+nat 1624
+lmä 1617
+_om 1615
+ivo 1614
+uok 1614
+las 1613
+pid 1611
+tos 1611
+isy 1606
+nmu 1606
+ot_ 1606
+siv 1606
+via 1602
+ras 1599
+_in 1596
+pa_ 1591
+hti 1590
+lyt 1590
+ilu 1587
+jäl 1584
+ty_ 1582
+ver 1580
+toa 1578
+lvo 1577
+oku 1575
+iki 1573
+ong 1572
+uht 1562
+_oh 1560
+_n_ 1554
+ljo 1553
+ävi 1552
+ähä 1550
+nim 1549
+elk 1542
+kou 1539
+erä 1538
+pär 1536
+olt 1535
+säl 1533
+uma 1533
+ouk 1532
+gel 1531
+ulo 1528
+hdi 1521
+ija 1517
+nem 1517
+sla 1517
+ane 1516
+arm 1515
+yse 1511
+art 1509
+oro 1509
+ira 1507
+aht 1500
+pah 1500
+rko 1495
+sko 1495
+ins 1494
+öön 1489
+lim 1488
+ymp 1488
+yyd 1486
+anu 1479
+ari 1475
+_na 1469
+het 1467
+lun 1466
+yte 1465
+njo 1463
+aji 1462
+hmä 1460
+enj 1457
+väs 1457
+_em 1454
+iir 1454
+ose 1451
+rjo 1449
+_di 1446
+aar 1446
+yle 1441
+iok 1436
+eki 1429
+yn_ 1428
+luk 1423
+töö 1423
+ppu 1416
+htu 1415
+suh 1411
+ääs 1411
+ial 1410
+non 1410
+öst 1408
+alk 1405
+lko 1403
+llu 1403
diff --git a/tika-core/src/main/resources/org/apache/tika/language/fr.ngp b/tika-core/src/main/resources/org/apache/tika/language/fr.ngp
new file mode 100644
index 0000000000..ce8b833adb
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/fr.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+es_ 124024
+_de 109755
+de_ 78274
+nt_ 74666
+ent 73427
+ion 65376
+_le 62856
+on_ 57250
+le_ 55725
+_co 53514
+_qu 52602
+que 50913
+_la 49619
+re_ 49502
+la_ 49477
+ns_ 48796
+tio 44394
+men 41151
+ue_ 40603
+ons 40266
+les 37708
+et_ 37315
+_pa 36424
+ne_ 36124
+_pr 35906
+_l_ 34158
+_un 33129
+_en 32396
+ur_ 32380
+_et 31951
+_ce 31086
+us_ 30924
+eme 30266
+er_ 30202
+ati 29403
+_po 29237
+_no 28573
+des 28357
+con 28332
+_à_ 28000
+eur 27741
+en_ 27260
+_au 26289
+ce_ 25075
+te_ 23773
+our 23353
+est 23013
+ous 22967
+par 22793
+_d_ 22601
+com 22259
+omm 20361
+tre 19922
+_so 19837
+ant 19778
+ont 19637
+_es 19421
+is_ 19350
+it_ 19074
+pro 19063
+nou 19028
+ts_ 19005
+res 18850
+ire 18398
+me_ 17460
+_dé 17376
+ans 17332
+pou 17199
+_in 17162
+té_ 17135
+il_ 16880
+lle 16762
+une 16272
+st_ 16127
+_re 16119
+_su 15949
+_ma 15798
+_se 15554
+ui_ 15354
+iqu 15271
+dan 15176
+ssi 15065
+rop 14695
+qui 14633
+_du 14571
+_il 14473
+du_ 14410
+_da 14232
+un_ 14210
+iss 13840
+se_ 13739
+nce 13678
+ux_ 13396
+_mo 13362
+ell 13134
+_ré 13115
+sio 13078
+rs_ 13041
+nte 12940
+ait 12843
+ais 12724
+air 12687
+rai 12244
+ort 12135
+_di 12086
+ité 12035
+ter 12019
+lem 11984
+ien 11962
+iti 11938
+mme 11896
+nne 11869
+sur 11838
+pré 11770
+_fa 11747
+au_ 11636
+_je 11603
+as_ 11533
+_vo 11276
+_av 11227
+_tr 11221
+_pe 11178
+je_ 11106
+_do 11086
+mis 11081
+pas 10835
+ale 10650
+rés 10622
+_eu 10537
+son 10475
+pos 10392
+tra 10361
+_ét 10282
+por 10242
+cti 10072
+uro 10031
+_me 10021
+int 9942
+_to 9829
+ntr 9806
+tou 9805
+ces 9782
+ir_ 9689
+onn 9638
+ues 9634
+_pl 9542
+ure 9473
+app 9402
+out 9368
+aut 9323
+ain 9197
+mes 9177
+qu_ 9177
+és_ 9128
+ect 9069
+tte 9069
+lit 9026
+ère 9010
+ens 8997
+ten 8872
+ett 8855
+ut_ 8792
+_a_ 8759
+ouv 8681
+sti 8643
+ar_ 8607
+aux 8537
+_ne 8519
+mai 8509
+mmi 8482
+end 8433
+ive 8378
+ble 8307
+ide 8242
+_ex 8222
+enc 8137
+urs 8133
+ren 8006
+opé 7977
+onc 7838
+tai 7806
+mon 7792
+_ac 7779
+nsi 7755
+ie_ 7749
+ser 7748
+tan 7706
+ieu 7677
+tat 7660
+oit 7656
+_ra 7644
+art 7605
+fai 7575
+ins 7506
+ée_ 7467
+nts 7358
+nti 7356
+lus 7344
+ess 7310
+éta 7253
+anc 7163
+sse 7144
+uve 7128
+éen 7111
+_ca 7106
+ran 7070
+pée 7067
+plu 7017
+_fo 7001
+si_ 6980
+_on 6934
+rat 6897
+ven 6887
+_si 6821
+pri 6650
+ièr 6647
+_sa 6628
+tiq 6604
+sit 6592
+_te 6577
+cet 6575
+tes 6542
+sen 6508
+ine 6474
+_ch 6454
+in_ 6396
+nse 6387
+den 6360
+uti 6354
+uni 6332
+ern 6311
+vou 6286
+cer 6243
+ite 6243
+nde 6242
+ave 6229
+nta 6201
+and 6195
+ier 6167
+sou 6096
+rap 6020
+sid 6005
+ise 5940
+for 5864
+rt_ 5836
+uel 5822
+rta 5817
+enn 5777
+rit 5745
+ond 5707
+ers 5703
+che 5681
+_ai 5679
+bre 5589
+ron 5574
+eux 5560
+ési 5542
+tie 5496
+pre 5456
+ver 5424
+tiv 5401
+abl 5357
+ppo 5350
+rti 5340
+rem 5338
+don 5336
+_ap 5333
+ali 5327
+voi 5309
+emb 5303
+roi 5295
+oir 5282
+ois 5214
+dre 5212
+san 5209
+_n_ 5197
+_li 5186
+_im 5124
+gra 5118
+per 5097
+man 5074
+ist 5068
+imp 5066
+str 5021
+sie 4991
+omp 4954
+von 4939
+ris 4938
+ses 4912
+ili 4906
+avo 4873
+_vi 4852
+arl 4822
+ées 4802
+fin 4794
+ve_ 4793
+era 4788
+nes 4785
+ill 4784
+leu 4783
+pe_ 4771
+dem 4769
+rme 4765
+ste 4763
+ute 4750
+_s_ 4708
+mat 4707
+ssa 4699
+oli 4695
+ès_ 4669
+ert 4643
+act 4614
+ava 4606
+ass 4587
+pol 4569
+teu 4559
+_gr 4552
+rie 4509
+mbr 4505
+nst 4494
+age 4492
+nom 4492
+rle 4467
+éri 4447
+_mi 4436
+tés 4425
+lis 4420
+rte 4420
+isa 4409
+cha 4398
+_êt 4396
+ame 4387
+oin 4386
+orm 4378
+osi 4369
+acc 4356
+sem 4345
+dev 4332
+êtr 4318
+rec 4293
+mpl 4291
+dis 4277
+pen 4263
+ra_ 4237
+_c_ 4217
+ord 4215
+jou 4211
+opo 4184
+rd_ 4157
+eau 4146
+nio 4139
+peu 4130
+ème 4129
+_an 4097
+cel 4088
+tur 4084
+tro 4053
+itu 4046
+cor 4035
+ge_ 4025
+utr 4016
+ls_ 4004
+esp 3998
+nat 3987
+éra 3983
+_cr 3971
+emp 3970
+al_ 3968
+uis 3968
+_ou 3964
+tit 3943
+nan 3934
+ica 3929
+éga 3926
+dir 3911
+lat 3909
+eil 3906
+cou 3892
+ec_ 3884
+_el 3863
+nté 3840
+été 3820
+ina 3818
+ela 3805
+tif 3797
+_lo 3786
+mpo 3772
+vec 3765
+ori 3759
+sei 3751
+sta 3743
+déc 3725
+égi 3720
+ici 3719
+ndr 3716
+nem 3716
+min 3712
+fon 3704
+_fi 3669
+ani 3644
+nal 3640
+rou 3635
+_am 3606
+its 3604
+ése 3567
+ats 3559
+doi 3556
+uss 3541
+ime 3499
+nci 3498
+el_ 3491
+_éc 3472
+vel 3460
+dro 3457
+der 3454
+rne 3413
+sai 3410
+soi 3405
+vai 3403
+roc 3394
+pay 3390
+rès 3385
+spo 3376
+mun 3374
+met 3361
+ére 3352
+cia 3332
+nda 3331
+cul 3320
+_dr 3310
+at_ 3304
+_ci 3301
+mem 3287
+oci 3276
+mmu 3273
+not 3270
+ifi 3250
+aus 3245
+ppe 3245
+tri 3235
+erm 3229
+fic 3215
+rer 3211
+_bi 3208
+_as 3194
+_ég 3194
+cit 3181
+tic 3180
+ays 3170
+_ju 3169
+ema 3163
+gal 3157
+att 3155
+éci 3154
+tem 3145
+ys_ 3133
+ial 3114
+oi_ 3091
+rce 3088
+ndi 3074
+_ob 3071
+inc 3068
+ini 3066
+cat 3063
+lon 3062
+nis 3059
+ail 3044
+ême 3026
+mer 3024
+col 3019
+lai 3019
+_ad 3014
+van 3011
+cte 3005
+lie 3004
+lan 3000
+ner 2996
+vis 2995
+_or 2994
+os_ 2986
+otr 2986
+ara 2983
+erc 2980
+ita 2980
+ose 2975
+sat 2954
+_j_ 2949
+squ 2940
+cie 2936
+éco 2930
+sui 2926
+rég 2925
+isi 2924
+dép 2917
+eff 2917
+mar 2915
+qua 2913
+_al 2904
+bie 2901
+_ag 2896
+rav 2883
+_ef 2879
+gue 2868
+ign 2855
+_pu 2850
+ez_ 2830
+uit 2817
+lut 2810
+_él 2809
+bil 2788
+lor 2785
+_y_ 2772
+_ve 2770
+elo 2767
+_af 2757
+dit 2749
+née 2741
+ors 2741
+bli 2740
+ai_ 2738
+nir 2733
+dra 2731
+non 2729
+erv 2728
+rep 2727
+omi 2724
+_m_ 2717
+moi 2716
+soc 2709
+tal 2703
+ou_ 2693
+ote 2691
+ate 2687
+uer 2687
+oup 2680
+_at 2676
+_mê 2675
+jet 2674
+mêm 2662
+arc 2658
+ctu 2658
+_né 2650
+ult 2628
+rel 2603
+_st 2597
+cla 2570
+dam 2559
+ura 2552
+ona 2549
+sol 2548
+tue 2538
+ffi 2524
+dif 2522
+ple 2519
+pon 2515
+pli 2510
+vie 2510
+he_ 2499
+tér 2489
+opp 2478
+ral 2477
+pla 2474
+ler 2459
+uct 2458
+eut 2454
+ein 2453
+tab 2453
+_ba 2450
+ric 2448
+ind 2444
+ice 2432
+uri 2419
+eni 2407
+pér 2407
+éve 2387
+epr 2366
+oye 2365
+ono 2363
+som 2361
+nco 2360
+ace 2350
+nné 2339
+udr 2338
+nvi 2333
+ore 2329
+cis 2324
+ule 2324
+use 2318
+rod 2315
+lic 2313
+amm 2312
+_na 2310
+_év 2299
+olu 2296
+omb 2276
+cip 2274
+fér 2274
+mbl 2269
+icu 2264
+exp 2260
+obl 2259
+_ar 2244
+urr 2242
+arg 2241
+nau 2239
+fau 2226
+oll 2222
+reu 2219
+_hu 2213
+eu_ 2213
+ang 2212
+rch 2188
+oul 2180
+poi 2177
+_ta 2162
+ttr 2156
+vot 2156
+gen 2151
+cco 2147
+_be 2141
+lar 2139
+ibl 2129
+aie 2123
+ope 2116
+_sé 2115
+uli 2115
+nd_ 2114
+ds_ 2112
+pte 2106
+uté 2105
+vea 2104
+éce 2104
+spe 2103
+_ab 2102
+cep 2088
+els 2088
+pui 2085
+rre 2082
+rog 2081
+dui 2078
+deu 2075
+env 2075
+ann 2068
+rob 2066
+agi 2065
+rée 2062
+tiè 2057
+odu 2055
+ogr 2052
+err 2051
+exi 2051
+iff 2049
+nna 2049
+_cl 2048
+trè 2048
+ci_ 2043
+vre 2041
+rép 2039
+tru 2036
+yen 2032
+ujo 2031
+réc 2024
+niè 2017
+onf 2010
+oud 2008
+nfo 2006
+ves 1999
+iat 1974
+_ho 1972
+ito 1972
+cri 1971
+uat 1971
+ust 1971
+gle 1963
+dév 1960
+auc 1957
+gne 1957
+iso 1955
+upe 1954
+car 1940
+sib 1940
+lop 1931
+oss 1922
+bat 1920
+imi 1920
+loi 1905
+ils 1897
+nit 1894
+una 1892
+_va 1887
+ger 1885
+réa 1883
+rqu 1882
+ppr 1881
+evo 1873
+idé 1873
+ard 1871
+rma 1869
+vra 1865
+cas 1862
+gar 1858
+ché 1850
+if_ 1843
+ffe 1841
+isp 1840
+seu 1833
+déb 1831
+_bo 1825
+gis 1822
+nai 1822
+rin 1821
+rge 1817
+tis 1816
+sé_ 1815
+nc_ 1799
+lib 1796
+abi 1792
+ume 1792
+cen 1790
+abo 1779
+bje 1776
+déf 1773
+obj 1765
+jus 1760
+ssu 1760
+nie 1758
+rio 1756
+isé 1754
+lig 1748
+gio 1745
+emi 1744
+rni 1742
+ies 1739
+her 1738
+éme 1738
+ret 1737
+liq 1734
+rna 1734
+lég 1730
+vit 1729
+pec 1726
+enf 1724
+ora 1724
+ndu 1723
+équ 1717
+ept 1716
+_ni 1715
+exe 1712
+blè 1710
+cur 1710
+lèm 1710
+nsa 1709
+réf 1709
+éli 1702
+ivi 1690
+enu 1687
+esu 1685
+foi 1685
+cré 1681
+rve 1680
+evr 1678
+tel 1673
+tin 1670
+ena 1665
+cho 1662
+plo 1661
+ubl 1659
+_bu 1657
+mil 1656
+_em 1653
+rci 1653
+all 1651
+an_ 1650
+gro 1648
+_jo 1647
+eus 1646
+uvo 1646
+céd 1641
+nge 1640
+nve 1638
+ext 1637
+eul 1632
+bor 1631
+inf 1626
+_fr 1621
+ile 1621
+rim 1620
+édu 1619
+tec 1618
+ari 1616
+lim 1602
+mie 1598
+hai 1596
+_ga 1595
+rôl 1589
+ets 1584
+ero 1579
+nos 1570
+iel 1562
+urd 1560
+uen 1555
+aid 1553
+har 1552
+aqu 1550
+pem 1550
+sée 1549
+_lu 1548
+sso 1541
+ruc 1537
+ram 1532
+tir 1529
+dér 1523
+_ha 1522
+til 1521
+_ti 1519
+vir 1518
+ôle 1517
+onv 1515
+éné 1513
+fs_ 1511
+tée 1508
+quo 1505
+nel 1502
+niq 1496
+tég 1496
+mpr 1495
+bon 1494
+adr 1493
+nor 1492
+tor 1486
+uan 1484
+_ri 1481
+dém 1480
+_fe 1479
+ota 1477
+éba 1474
+dom 1473
+olo 1473
+rra 1471
+isc 1464
+log 1464
+sab 1463
+sav 1461
+aur 1460
+tim 1460
+rso 1459
+_sy 1457
+néc 1456
+rév 1455
+hui 1454
+éch 1454
+cro 1452
+gou 1451
+ipe 1447
+dur 1439
+uvr 1439
+oma 1434
+règ 1434
+éte 1434
+écu 1433
+_rè 1431
+éfi 1429
+avi 1425
+eco 1424
+ré_ 1424
+ppl 1423
+éso 1416
+fra 1412
+han 1410
+miq 1410
+nds 1401
+dia 1398
+tut 1396
+épo 1396
+uta 1395
+ègl 1392
+ole 1391
+_op 1390
+ges 1390
+évi 1389
+ula 1388
+iro 1387
+uto 1375
+rot 1373
+len 1369
+épu 1367
+_lé 1366
+git 1366
+hom 1364
+rts 1364
+ifs 1363
+jec 1360
+oie 1354
+aci 1353
+mal 1350
+mit 1344
+auj 1337
+vic 1335
+osé 1330
+tag 1328
+usi 1323
+émo 1323
+sme 1321
+nen 1320
+éla 1315
+rvi 1311
+ada 1310
+gie 1309
+lio 1306
+llè 1306
+mod 1305
+toy 1303
+lli 1302
+aff 1293
+tua 1293
+_mé 1292
+nue 1292
+rri 1289
+ps_ 1288
+cun 1287
+mma 1281
+pel 1281
+sec 1275
+_vu 1266
+_gé 1265
+rêt 1264
+cra 1259
+mpt 1259
+rib 1258
+opt 1257
+cad 1255
+lèg 1254
+ix_ 1253
+nqu 1252
+nct 1248
+bas 1247
+urq 1247
+_go 1245
+_où 1243
+occ 1243
+où_ 1243
+déj 1240
+niv 1239
+nér 1237
+jà_ 1234
+éjà 1233
+dic 1229
+édi 1225
+sus 1224
+pub 1221
+veu 1219
+né_ 1216
+val 1214
+put 1212
+och 1206
+ègu 1206
+duc 1204
+yst 1202
+agr 1197
+ech 1196
+ism 1192
+_ut 1191
+alo 1188
+ibu 1187
+nfi 1187
+uoi 1184
+idi 1183
+mps 1183
+sys 1183
+emm 1179
+lée 1179
+cce 1176
+tau 1170
+_oc 1167
+ior 1167
+lec 1165
+gan 1160
+_br 1159
+vue 1159
+stè 1156
+lui 1151
+ffé 1148
+gén 1145
+clu 1143
+ton 1143
+dop 1141
+rab 1134
+lac 1130
+rom 1126
+ude 1126
+hé_ 1125
+océ 1121
+cle 1116
+ièm 1114
+lab 1114
+sa_ 1113
+org 1108
+afi 1107
+éal 1104
+_x_ 1101
diff --git a/tika-core/src/main/resources/org/apache/tika/language/gl.ngp b/tika-core/src/main/resources/org/apache/tika/language/gl.ngp
new file mode 100644
index 0000000000..88ed89816a
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/gl.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_de 362561
+de_ 340477
+os_ 289211
+as_ 230680
+_co 219796
+do_ 211969
+_a_ 176030
+_e_ 148881
+ent 146587
+_o_ 144578
+da_ 144100
+que 129396
+_do 125347
+en_ 124546
+nte 124516
+es_ 123737
+_en 122599
+_po 119323
+ión 117837
+te_ 116335
+_se 116250
+_qu 114451
+ón_ 111221
+ue_ 110174
+ra_ 108855
+con 104102
+_no 103372
+_es 102588
+est 99822
+_da 97953
+_pa 96504
+_ca 95634
+_un 94718
+ció 92440
+_pr 91703
+se_ 91606
+ado 90387
+_re 88993
+to_ 86582
+no_ 82834
+on_ 82389
+ia_ 75136
+men 74366
+par 73303
+sta 72331
+ica 72002
+al_ 70803
+aci 69207
+dos 69086
+res 68742
+or_ 68497
+ta_ 68082
+ant 67278
+is_ 66568
+com 64441
+na_ 63758
+_na 62458
+ro_ 62412
+_in 62205
+_ma 60636
+ida 58388
+ar_ 57239
+des 56158
+tra 55994
+un_ 54236
+ade 54102
+ist 53931
+nha 53367
+unh 52921
+ter 52897
+ha_ 52204
+_fo 52198
+cia 52169
+ada 51535
+ou_ 51441
+ndo 50795
+por 50783
+an_ 50601
+lo_ 50452
+ara 49902
+_as 48813
+_te 48670
+dad 48495
+_pe 48329
+ca_ 48070
+and 47367
+ran 47229
+mo_ 47160
+nto 47157
+nci 47155
+co_ 46709
+_os 46533
+io_ 46177
+_me 45312
+per 44965
+pro 44009
+_an 42944
+la_ 42826
+_mo 42662
+ste 42248
+_di 42188
+eir 41812
+ns_ 41575
+ía_ 40807
+era 40030
+_é_ 38847
+nta 38725
+_so 38693
+das 38426
+ico 38241
+ntr 37887
+pre 37350
+er_ 37330
+ici 37158
+ita 37003
+pol 36612
+nde 36196
+_tr 36019
+tes 35915
+ano 35863
+ont 35798
+ali 35501
+str 34745
+_al 34459
+re_ 34247
+ina 34102
+tro 33428
+rio 33394
+tic 33180
+_ou 33167
+ito 33072
+art 32766
+ron 32618
+den 32334
+ura 31657
+tor 31585
+tos 31346
+nos 31266
+ari 31176
+tan 30842
+ons 30673
+omo 30623
+ido 30315
+for 30282
+ame 30184
+ais 30126
+cas 29991
+ort 29863
+_ba 29474
+rte 29021
+ese 28913
+eri 28638
+esp 28464
+óns 28461
+enc 28443
+end 28407
+_sa 28381
+_ex 28360
+ras 28352
+nda 28275
+_su 28176
+tad 28044
+rec 27981
+sti 27846
+ten 27829
+olo 27590
+_ao 27559
+ria 27535
+can 27525
+iro 27513
+ona 27272
+eu_ 27225
+_vi 26867
+ma_ 26654
+_li 26245
+rad 26126
+oi_ 26110
+go_ 25982
+gra 25962
+car 25913
+ros 25908
+man 25708
+nti 25581
+cid 25536
+_ac 25512
+err 25340
+_gr 25284
+ao_ 25267
+_ta 25168
+tre 25002
+mar 24844
+ira 24809
+ome 24729
+seu 24658
+_fi 24384
+sen 24324
+der 24286
+ase 24256
+_sú 24128
+pri 24061
+súa 24007
+int 23838
+ori 23784
+ver 23650
+aba 23626
+tiv 23595
+cio 23426
+_to 23407
+tal 23275
+pos 23196
+_si 23148
+_ar 22915
+esc 22887
+_du 22810
+ale 22764
+_ve 22697
+_ga 22689
+tar 22611
+ero 22392
+tas 22355
+_má 22351
+ata 22275
+ion 22168
+_fa 22134
+_at 22090
+und 21998
+ser 21863
+uni 21857
+iza 21734
+_ci 21689
+ece 21554
+foi 21482
+nic 21406
+rma 21402
+tur 21273
+llo 21264
+fic 21171
+ela 21100
+cos 20953
+qui 20792
+edi 20788
+ect 20784
+so_ 20756
+úa_ 20748
+cul 20692
+sto 20669
+lic 20603
+sa_ 20585
+nse 20508
+áis 20448
+mái 20400
+eci 20299
+inc 20223
+orm 20212
+ola 20209
+cor 20103
+ide 20102
+ría 20021
+anc 19900
+emp 19852
+_lo 19761
+non 19706
+_ch 19631
+lla 19566
+_mi 19521
+ren 19514
+tem 19491
+dor 19474
+tam 19357
+ime 19241
+min 19064
+cen 18957
+_fr 18927
+_mu 18869
+nas 18844
+nal 18819
+cal 18730
+ric 18711
+ell 18705
+ing 18689
+las 18574
+_cu 18510
+ore 18426
+egu 18394
+los 18298
+_le 18115
+ña_ 18107
+ber 18042
+ial 17988
+rim 17899
+za_ 17888
+les 17879
+ere 17782
+mpo 17780
+cad 17751
+nce 17739
+ost 17638
+ill 17603
+mai 17603
+_ce 17545
+ers 17538
+ele 17519
+rra 17518
+ema 17506
+us_ 17492
+el_ 17440
+rei 17436
+ios 17413
+_cr 17364
+ral 17314
+rti 17312
+gal 17248
+rac 17190
+act 17182
+ili 17131
+ens 17071
+are 17051
+_á_ 16946
+ern 16896
+tri 16887
+_va 16876
+seg 16856
+san 16814
+uci 16718
+out 16631
+_el 16579
+bre 16577
+lle 16456
+obr 16301
+arr 16256
+eme 16221
+lar 16216
+lan 16132
+_xe 16131
+son 16126
+ode 16058
+ind 15926
+ora 15897
+mes 15889
+_ha 15869
+oma 15822
+_la 15814
+ana 15813
+esa 15801
+én_ 15759
+nad 15707
+ior 15661
+_fe 15510
+rea 15450
+ond 15418
+exi 15350
+le_ 15347
+esi 15222
+dia 15199
+sió 15199
+_or 15171
+rit 15167
+_ne 15165
+rop 15128
+omp 15055
+dis 14925
+_ro 14913
+_im 14803
+vo_ 14698
+fer 14659
+nst 14615
+_ap 14576
+dic 14556
+bra 14554
+liz 14540
+cto 14514
+ces 14433
+ega 14361
+rre 14343
+rta 14315
+ias 14224
+_au 14207
+ban 14164
+imp 14103
+ula 14086
+mer 14081
+tin 14062
+ert 14042
+ivo 13967
+mei 13910
+ala 13877
+ndi 13833
+án_ 13824
+utr 13815
+nom 13757
+ama 13688
+ini 13619
+xa_ 13614
+odo 13596
+mun 13512
+_ti 13511
+cri 13487
+ast 13447
+oca 13409
+all 13356
+itu 13293
+alm 13278
+ga_ 13244
+smo 13209
+onc 13200
+col 13194
+oa_ 13184
+ian 13181
+sid 13175
+ulo 13143
+aro 13137
+lme 13124
+cip 13101
+gue 13066
+ato 13042
+gar 12993
+ba_ 12984
+_ho 12954
+nor 12952
+cel 12939
+cha 12923
+po_ 12920
+mos 12885
+eta 12816
+nov 12809
+cer 12788
+amé 12750
+lin 12726
+_ad 12650
+med 12649
+ir_ 12640
+fra 12610
+ati 12580
+pod 12550
+tua 12527
+ate 12524
+ino 12452
+mas 12400
+cam 12384
+me_ 12364
+dun 12354
+iva 12351
+ous 12351
+rro 12332
+nac 12329
+erm 12318
+use 12244
+_nu 12213
+va_ 12207
+eno 12141
+_am 12080
+rat 12073
+lia 11982
+rel 11982
+gun 11979
+tid 11955
+tod 11888
+_em 11870
+ans 11750
+cci 11699
+mad 11660
+xe_ 11600
+ani 11593
+spo 11587
+mén 11560
+ima 11538
+apa 11527
+ble 11527
+eit 11474
+eus 11472
+uen 11466
+fin 11465
+_xu 11360
+sco 11257
+gre 11191
+mil 11166
+_ob 11130
+arc 11089
+_go 11057
+mon 11055
+bro 11039
+tac 11030
+ace 11011
+nun 10990
+_br 10984
+ego 10983
+coa 10964
+uto 10953
+moi 10925
+rin 10892
+spa 10890
+spe 10810
+dou 10803
+_ra 10763
+ive 10735
+ven 10731
+rna 10723
+lec 10719
+vol 10680
+lid 10654
+ult 10648
+ena 10629
+uer 10628
+sic 10577
+uro 10571
+_er 10518
+iña 10499
+nsi 10498
+_ab 10492
+ses 10466
+orr 10454
+tab 10450
+_lu 10418
+asa 10411
+_fu 10365
+eco 10353
+cre 10339
+aio 10336
+_xa 10328
+stá 10311
+rex 10309
+var 10287
+vid 10281
+pal 10260
+_gu 10253
+oit 10247
+pas 10243
+mor 10211
+_be 10197
+nar 10190
+reg 10189
+asi 10187
+ien 10186
+nid 10156
+mpe 10073
+erí 10041
+rar 10037
+xo_ 10031
+bri 10026
+ite 10010
+ris 10002
+és_ 9966
+pen 9881
+_bo 9850
+nes 9833
+rib 9798
+dur 9780
+lem 9778
+lon 9765
+rom 9749
+emb 9745
+ai_ 9725
+lis 9721
+ifi 9720
+ngu 9703
+oñe 9670
+ivi 9635
+che 9622
+rep 9607
+sob 9552
+oro 9551
+_pu 9527
+_hi 9481
+ret 9476
+ce_ 9473
+ual 9446
+ipa 9417
+erc 9372
+mpl 9357
+bli 9331
+lit 9329
+obe 9280
+rod 9267
+unt 9249
+sas 9230
+lac 9226
+mpr 9180
+gua 9179
+ord 9158
+sit 9149
+isi 9129
+scr 9105
+oci 9062
+pañ 9040
+duc 9027
+axe 9009
+poi 8958
+nis 8940
+ust 8940
+ea_ 8935
+tel 8904
+uga 8901
+aña 8877
+igo 8876
+cat 8867
+ete 8867
+ago 8858
+aca 8851
+abi 8848
+bal 8808
+vis 8803
+oni 8793
+pec 8793
+xer 8788
+roc 8743
+leg 8728
+eli 8694
+ota 8684
+eo_ 8683
+úas 8682
+rno 8677
+lta 8642
+bar 8631
+ede 8630
+tit 8600
+obo 8587
+ono 8567
+sar 8551
+fun 8548
+ove 8531
+gui 8512
+rde 8509
+gan 8496
+ard 8474
+_vo 8472
+ez_ 8467
+rto 8460
+gos 8447
+_cl 8444
+eso 8436
+cti 8434
+xen 8407
+dem 8391
+dio 8391
+mat 8364
+emi 8358
+rso 8334
+_pi 8293
+osi 8293
+sis 8248
+coñ 8233
+tru 8228
+mic 8217
+rem 8197
+aso 8187
+rab 8164
+alg 8160
+índ 8157
+lor 8131
+erv 8111
+pob 8106
+nza 8104
+mit 8070
+ois 8070
+tig 8069
+_sé 8062
+cie 8048
+iu_ 8036
+lad 8034
+il_ 8000
+exa 7979
+ixi 7976
+_oc 7970
+atr 7966
+met 7951
+mbr 7949
+bas 7946
+in_ 7941
+val 7934
+ctu 7922
+alt 7902
+zad 7892
+cap 7870
+ane 7861
+adi 7858
+ume 7838
+ism 7834
+imi 7823
+ixo 7809
+ñec 7803
+ram 7798
+pa_ 7782
+elo 7769
+boa 7755
+fil 7752
+hab 7737
+exp 7725
+iga 7706
+_ó_ 7675
+ii_ 7662
+écu 7649
+ins 7643
+nve 7642
+_on 7620
+arí 7619
+osa 7619
+red 7619
+ami 7607
+pla 7596
+rov 7582
+íti 7570
+dir 7566
+día 7526
+ine 7524
+abe 7499
+sos 7496
+ecu 7478
+rca 7475
+bit 7457
+imo 7450
+nia 7423
+séc 7409
+til 7379
+eda 7317
+dec 7311
+esm 7310
+zo_ 7296
+_xo 7286
+rse 7285
+ño_ 7283
+_bi 7272
+rri 7254
+ogr 7242
+pon 7234
+dep 7233
+atu 7227
+usa 7196
+omi 7188
+rqu 7185
+aut 7173
+_ag 7131
+eal 7131
+dar 7120
+eza 7119
+ene 7106
+gad 7098
+stu 7087
+rid 7086
+oqu 7076
+_he 7072
+sup 7068
+cla 7052
+nco 7047
+erd 7044
+ovi 7026
+tud 7026
+lat 7021
+río 7019
+emo 7010
+_ni 6998
+tán 6992
+efe 6988
+sin 6964
+_il 6946
+del 6943
+bel 6936
+etr 6925
+len 6898
+_eu 6891
+loc 6890
+sca 6888
+ova 6883
+opa 6880
+dif 6865
+amp 6859
+oli 6853
+rci 6853
+sol 6818
+odu 6814
+rie 6814
+equ 6804
+oso 6804
+ler 6798
+ís_ 6780
+exe 6776
+cac 6775
+tou 6755
+deb 6739
+_is 6728
+_pl 6711
+alo 6711
+ire 6709
+bai 6685
+lev 6674
+eva 6669
+xis 6667
+aín 6665
+dan 6638
+rga 6615
+iti 6611
+ext 6592
+inf 6586
+_ri 6566
+aix 6562
+ila 6524
+_aí 6513
+aco 6499
+aís 6499
+tá_ 6488
+vas 6476
+ref 6471
+cab 6468
+olí 6448
+abr 6427
+ull 6420
+sem 6403
+edo 6393
+his 6392
+gob 6374
+tim 6361
+rmi 6329
+ogo 6321
+tiñ 6290
+abl 6288
+ose 6280
+rix 6280
+vin 6258
+ás_ 6258
+año 6250
+div 6227
+mpa 6225
+tir 6224
+nat 6222
+fac 6207
+isc 6197
+lei 6196
+ol_ 6166
+lib 6160
+ton 6141
+paí 6137
+iad 6131
+ped 6109
+sal 6086
+ner 6083
+ham 6073
+rev 6056
+lti 6054
+dei 6052
+rda 6044
+sur 6038
+uia 6008
+ías 5990
+opi 5979
+_us 5975
+ei_ 5962
+opo 5951
+aqu 5940
+mac 5923
+_of 5905
+rme 5898
+soc 5887
+amb 5874
+van 5846
+rai 5843
+zar 5841
+rou 5834
+ecc 5824
+vos 5812
+zas 5804
+cun 5799
+vil 5790
+eto 5779
+bor 5774
+mal 5716
+anz 5701
+eur 5696
+rob 5686
+adr 5682
+orn 5682
+ixe 5672
+roq 5662
+rav 5649
+oce 5641
+lab 5628
+ote 5622
+gas 5610
+rot 5605
+onv 5604
+lug 5599
+lim 5591
+mel 5589
+tec 5589
+ong 5579
+mul 5568
+lít 5564
+log 5563
+_ed 5562
+vel 5561
+amo 5554
+ovo 5553
+unc 5546
+uti 5522
+oac 5520
+ua_ 5511
+_id 5508
+ave 5505
+aos 5486
+nai 5484
+ein 5460
+ole 5452
+evi 5441
+did 5438
+sul 5432
+ur_ 5427
+ben 5419
+cur 5409
+nsa 5408
+one 5404
+uel 5398
+olu 5376
+sec 5371
+mez 5362
+cem 5356
+mod 5348
+raz 5337
+nan 5326
+pit 5325
+hom 5292
+_ec 5272
+ope 5245
+abo 5242
+rón 5228
+org 5223
+xic 5218
+ve_ 5217
+zac 5199
+scu 5182
+orí 5181
+pad 5172
+dra 5171
+ues 5167
+heg 5146
+oto 5143
+ibe 5142
+_af 5134
+así 5133
+rsi 5117
+_ig 5107
+plo 5104
+ibi 5091
+ne_ 5090
+ced 5075
+mán 5054
+xió 5043
+olv 5041
+_rí 5035
+arq 5025
+lve 5018
+ío_ 5013
+ían 5003
+iño 4995
+ves 4994
+_dí 4990
+tei 4989
+cin 4980
+edr 4980
+fal 4976
+xec 4976
+mis 4957
+ipo 4954
+ple 4954
+apo 4943
+rup 4941
+mbi 4927
+_ir 4924
+pra 4919
+ars 4917
+xun 4904
+_bu 4903
+pul 4902
+pan 4898
+arl 4897
+xía 4891
+áti 4886
+aza 4880
+bo_ 4873
+evo 4873
+ilo 4869
+tom 4860
+pio 4854
+cou 4850
+inv 4847
+sub 4846
+bil 4845
+iar 4841
+igr 4839
+nca 4830
+sí_ 4825
+_xi 4816
+pou 4796
+via 4787
+api 4775
+upo 4769
+vad 4764
+ile 4762
+egr 4759
+hai 4759
+_th 4752
+lam 4750
+aus 4736
diff --git a/tika-core/src/main/resources/org/apache/tika/language/hu.ngp b/tika-core/src/main/resources/org/apache/tika/language/hu.ngp
new file mode 100644
index 0000000000..a91a3e665a
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/hu.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_a_ 38146
+_sz 17915
+_az 14292
+és_ 13996
+sze 12590
+az_ 12544
+ek_ 11509
+en_ 10831
+_és 9755
+_me 9709
+tás 9013
+gy_ 8327
+an_ 7873
+meg 7821
+ak_ 7519
+egy 7511
+ség 7504
+ele 7499
+_te 7457
+_el 7419
+zer 7386
+_pr 6800
+zet 6690
+pro 6517
+tt_ 6485
+_eg 6437
+et_ 6393
+_fe 6318
+_kö 6220
+ok_ 6199
+is_ 5969
+_in 5910
+ere 5855
+szá 5791
+int 5673
+szt 5606
+gra 5568
+ram 5558
+tés 5512
+nak 5498
+rog 5418
+ás_ 5400
+ogr 5386
+_ha 5290
+ter 5278
+fel 5226
+ban 5218
+eze 5182
+_be 5135
+atá 5040
+ése 5033
+ény 4982
+ben 4981
+_mi 4955
+let 4914
+es_ 4903
+ete 4898
+_fo 4856
+_ne 4807
+ala 4759
+al_ 4746
+_ta 4741
+tel 4737
+ész 4715
+_ho 4684
+nt_ 4649
+min 4643
+zés 4620
+_va 4619
+nek 4548
+hat 4547
+el_ 4528
+at_ 4502
+si_ 4501
+am_ 4499
+köz 4491
+vez 4449
+nye 4419
+ely 4413
+ja_ 4355
+ra_ 4345
+ett 4342
+_ki 4341
+_le 4323
+ont 4232
+tal 4212
+_al 4195
+ind 4188
+ság 4187
+sza 4168
+ti_ 4167
+ott 4075
+ált 4068
+ai_ 4063
+áll 3878
+szo 3873
+ítá 3848
+_is 3831
+het 3819
+ell 3816
+gye 3800
+_ke 3747
+tat 3696
+end 3657
+ogy 3646
+zám 3645
+agy 3629
+esz 3604
+len 3589
+_ké 3572
+os_ 3561
+pon 3533
+for 3479
+se_ 3459
+hog 3391
+ásá 3389
+ége 3354
+ssz 3335
+_ér 3331
+ni_ 3321
+ány 3313
+eke 3310
+ció 3294
+sít 3278
+re_ 3265
+_re 3264
+nem 3256
+erv 3250
+unk 3247
+sok 3239
+lis 3225
+val 3219
+lat 3212
+mel 3188
+ik_ 3168
+ent 3163
+ért 3161
+em_ 3153
+jel 3131
+kez 3129
+kat 3099
+lta 3091
+ren 3049
+tár 3049
+zás 3028
+dít 3024
+ato 3016
+tet 3003
+áso 3000
+rés 2988
+_ál 2980
+kép 2950
+tan 2902
+dés 2892
+_ko 2885
+_tá 2874
+rve 2861
+_po 2841
+kor 2813
+ték 2811
+on_ 2799
+_mu 2757
+art 2748
+át_ 2746
+ma_ 2740
+lap 2731
+tó_ 2717
+ató 2707
+mun 2699
+_cs 2697
+áli 2696
+lla 2688
+asz 2676
+eté 2657
+_ma 2655
+st_ 2648
+_ré 2641
+ása 2625
+lt_ 2597
+nde 2582
+lye 2581
+gya 2571
+_id 2563
+nté 2538
+koz 2535
+öss 2534
+ét_ 2522
+_je 2517
+_am 2516
+bb_ 2512
+ető 2512
+cso 2500
+gál 2496
+lás 2495
+vál 2479
+áci 2465
+tar 2453
+ezé 2433
+sa_ 2429
+tek 2418
+_vá 2416
+ésé 2416
+kel 2409
+íté 2404
+_bi 2399
+_ez 2394
+eve 2390
+alm 2385
+zat 2382
+alk 2381
+er_ 2359
+eg_ 2342
+ndí 2317
+ame 2312
+alá 2311
+leg 2304
+hel 2302
+ák_ 2302
+lle 2300
+nte 2299
+ket 2293
+oly 2293
+_ös 2280
+olg 2257
+rté 2245
+hoz 2242
+ág_ 2238
+ási 2217
+zak 2211
+ési 2183
+ozá 2173
+tja 2171
+mén 2159
+nál 2149
+biz 2145
+ny_ 2144
+tő_ 2143
+del 2141
+ese 2134
+eti 2129
+vet 2125
+ól_ 2122
+fog 2119
+ló_ 2119
+öve 2116
+orm 2103
+_ka 2102
+án_ 2097
+_gy 2078
+elő 2072
+ten 2066
+ább 2065
+_ve 2064
+ég_ 2063
+_eu 2061
+kül 2057
+ada 2041
+idő 2031
+us_ 2031
+_má 2023
+elé 2001
+tos 1997
+men 1995
+ot_ 1974
+szí 1957
+yek 1953
+lal 1929
+lés 1929
+mán 1926
+_he 1922
+tok 1915
+lam 1914
+ána 1913
+_ny 1910
+ez_ 1906
+nev 1892
+kon 1884
+ysz 1883
+_es 1882
+_to 1874
+ozó 1871
+ára 1871
+elm 1857
+dsz 1852
+les 1852
+gi_ 1850
+tik 1846
+lem 1844
+lya 1840
+_ad 1838
+lma 1838
+_vi 1836
+csa 1830
+dás 1827
+_cé 1809
+mi_ 1808
+_de 1805
+ve_ 1803
+_tö 1775
+rt_ 1771
+éte 1766
+szi 1759
+yes 1750
+oga 1745
+sek 1740
+vel 1734
+ző_ 1728
+ors 1727
+ati 1720
+nka 1719
+vag 1715
+iál 1711
+ber 1705
+áma 1695
+mer 1694
+sen 1692
+zó_ 1689
+ker 1685
+ll_ 1681
+fej 1679
+it_ 1678
+ehe 1676
+emb 1673
+kal 1667
+ély 1666
+rmá 1659
+zot 1656
+cél 1655
+ová 1654
+épz 1647
+tot 1644
+rsz 1643
+tve 1642
+tes 1640
+zol 1640
+gat 1639
+ciá 1638
+mbe 1637
+or_ 1637
+tér 1636
+rek 1629
+amo 1619
+nk_ 1617
+has 1614
+ék_ 1601
+erm 1599
+enn 1598
+rta 1598
+_na 1597
+lko 1594
+éle 1583
+isz 1582
+kör 1575
+özö 1573
+_se 1567
+éke 1564
+áro 1557
+_ak 1554
+vén 1554
+oka 1552
+ata 1550
+eur 1550
+_e_ 1546
+_té 1545
+tsé 1545
+ába 1543
+aló 1537
+_en 1524
+ami 1524
+edé 1523
+rül 1521
+szü 1520
+ly_ 1518
+elt 1517
+nyo 1517
+lys 1511
+dat 1496
+fon 1496
+tov 1496
+_do 1495
+váb 1492
+_an 1488
+nyi 1488
+ül_ 1487
+ébe 1486
+tén 1481
+eri 1480
+yez 1473
+ító 1464
+ező 1459
+ama 1456
+fol 1453
+ort 1452
+rin 1447
+yel 1447
+leh 1441
+ály 1441
+ege 1439
+más 1439
+zon 1439
+maz 1438
+_vé 1436
+mag 1434
+lgá 1433
+azo 1430
+már 1430
+por 1424
+ós_ 1420
+_so 1417
+ók_ 1416
+pzé 1412
+ges 1408
+ene 1407
+ond 1403
+elv 1402
+efo 1397
+rán 1394
+tor 1391
+ika 1387
+rás 1384
+tud 1384
+ons 1383
+yan 1382
+ió_ 1379
+szé 1379
+kap 1378
+ére 1369
+gén 1368
+yen 1365
+szn 1362
+zág 1362
+zem 1360
+gaz 1359
+_kü 1358
+éne 1349
+_t_ 1348
+ta_ 1343
+ony 1341
+sme 1337
+zt_ 1331
+ndo 1330
+lak 1329
+üle 1323
+mat 1321
+ola 1321
+ár_ 1321
+_er 1317
+ism 1313
+_ol 1307
+okt 1305
+_mo 1304
+erü 1294
+én_ 1291
+_ig 1289
+iós 1287
+oz_ 1285
+ülö 1282
+uta 1281
+ámo 1279
+uró 1278
+oci 1277
+dol 1273
+omá 1273
+sol 1273
+gon 1268
+ejl 1265
+pes 1264
+yi_ 1264
+ako 1263
+_tu 1262
+sán 1257
+kés 1246
+ret 1245
+lön 1241
+ála 1238
+elk 1237
+uk_ 1237
+lát 1234
+zta 1233
+nfo 1232
+zoc 1228
+égi 1223
+izo 1220
+eny 1214
+zeg 1213
+pol 1210
+tts 1210
+ill 1208
+opo 1207
+_lé 1202
+sop 1202
+ia_ 1199
+zel 1199
+mok 1195
+te_ 1193
+éve 1191
+res 1189
+ssé 1189
+nsz 1188
+ást 1188
+érd 1180
+eme 1178
+emz 1166
+oló 1160
+seg 1159
+árs 1159
+zín 1157
+ess 1154
+gít 1154
+gal 1146
+lek 1145
+ken 1144
+zte 1136
+els 1133
+emé 1133
+ekt 1131
+_át 1129
+éko 1129
+ött 1128
+elj 1127
+lha 1122
+zab 1121
+gek 1120
+ágo 1119
+nds 1117
+inf 1116
+tte 1115
+mód 1113
+lcs 1112
+róp 1112
+ert 1111
+zen 1107
+est 1103
+zté 1103
+nik 1102
+zná 1101
+sz_ 1099
+dő_ 1098
+ki_ 1098
+_il 1097
+sor 1092
+tag 1089
+áló 1088
+dal 1086
+ntj 1086
+ord 1084
+_mé 1083
+rvé 1081
+lít 1078
+ona 1075
+ük_ 1075
+_jo 1074
+_s_ 1074
+ked 1074
+tsá 1071
+ne_ 1070
+nős 1067
+zto 1067
+inő 1065
+ván 1062
+egí 1058
+zük 1056
+_st 1054
+téz 1050
+kol 1049
+tál 1045
+vis 1044
+set 1042
+vég 1033
+_ok 1032
+li_ 1031
+lit 1031
+den 1028
+osí 1028
+ől_ 1028
+_új 1027
+ksé 1027
+ópa 1027
+eng 1026
+nag 1021
+nys 1016
+uni 1016
+_mó 1015
+ha_ 1014
+mác 1012
+and 1010
+kai 1010
+the 1007
+bel 1006
+ebb 1006
+dok 1005
+nya 1005
+ion 1003
+ügy 1003
+nos 1002
+hez 1001
+köv 1001
+lka 1001
+roz 999
+egé 997
+zhe 997
+jog 993
+jle 991
+ját 990
+_hi 988
+kér 988
+zi_ 988
+ján 985
+lgo 984
+vev 984
+ei_ 979
+ver 979
+nge 976
+égé 974
+mél 973
+egf 972
+mot 971
+iká 967
+émá 965
+_fi 964
+ri_ 964
+pcs 963
+_go 961
+_pé 961
+lel 961
+etk 960
+gla 960
+sak 954
+ogl 953
+zek 953
+zik 949
+ezd 948
+ana 946
+apc 946
+nti 946
+até 943
+yam 943
+ize 941
+bef 940
+rsa 934
+vő_ 934
+yak 933
+evő 932
+lef 928
+ran 927
+ysé 926
+izt 925
+sér 924
+ani 922
+ged 922
+toz 922
+pai 920
+kke 914
+kén 914
+lmi 911
+abb 909
+ról 906
+sal 906
+érv 906
+ft_ 905
+van 905
+be_ 904
+net 903
+_vo 902
+fiz 902
+get 902
+épe 902
+_né 901
+szö 901
+gyi 899
+egn 898
+ezh 896
+doz 893
+mai 893
+oli 892
+von 891
+_pa 890
+nto 889
+oss 889
+alo 887
+ősé 887
+üks 885
+tha 883
+tle 882
+ztv 882
+gok 881
+ori 881
+cím 880
+osz 880
+tám 879
+lő_ 876
+áza 876
+vek 873
+iku 871
+tör 871
+_ba 868
+kus 867
+apo 865
+old 865
+lét 864
+_év 860
+_pe 859
+rez 859
+lom 858
+rte 858
+rde 855
+par 854
+_cí 848
+tra 848
+elh 847
+bké 846
+_há 844
+dél 844
+iti 843
+yos 842
+evé 841
+rme 841
+me_ 840
+ig_ 839
+kis 839
+akk 836
+llá 832
+_k_ 831
+esí 831
+mze 831
+tét 831
+ént 831
+ági 830
+itá 829
+lad 828
+máj 823
+om_ 823
+kto 821
+tam 821
+bbk 820
+tke 819
+ers 818
+aná 817
+sko 817
+ult 817
+goz 815
+ést 814
+köd 812
+oza 809
+att 808
+dek 803
+ine 802
+nci 802
+zok 802
+ndő 801
+azd 800
+ács 800
+jár 799
+gne 797
+ech 796
+tém 796
+efi 795
+yet 795
+de_ 794
+bbi 793
+nny 793
+sát 793
+ozt 789
+öbb 789
+ősí 789
+ják 788
+olt 788
+zít 788
+las 786
+töb 786
+anu 784
+két 784
+_di 783
+asá 783
+igé 783
+mog 783
+eli 782
+ldá 782
+zmé 780
+gyo 779
+kbe 779
+um_ 779
+tem 778
+ája 778
+ka_ 777
+juk 776
+lmé 776
+elü 775
+_ku 772
+íne 771
+_ga 770
+_or 770
+_em 768
+gfe 768
+kba 768
+tec 767
+_n_ 766
+dom 765
+egk 762
+rla 762
+san 761
+sár 760
+_bu 757
+rmé 757
+ból 756
+ol_ 754
+orl 753
+sel 753
+véd 753
+ape 752
+ela 752
+ozz 752
+enc 751
+bál 748
+_la 747
+mér 747
+önb 747
+ann 745
+dőt 745
+nká 745
+teg 743
+íte 743
+uda 742
+új_ 742
+ves 739
+zle 739
+han 735
+dik 734
+_ór 733
+mek 733
+lje 732
+sad 732
+él_ 731
+_ci 730
+_él 729
+etl 728
+lja 728
+udo 728
+eum 726
+ölt 725
+_un 724
+óds 724
+_ft 722
+yer 721
+gés 720
+őta 720
+bek 718
+chn 718
+pia 718
+tak 718
+kom 717
+nél 717
+osa 717
+pít 716
+red 716
+str 715
+adá 714
+nna 713
+tta 713
+rtj 712
+tős 712
+lke 711
+jes 709
+_ja 708
+dőp 708
+olá 707
+lóg 706
+szó 705
+_ir 704
+kul 703
+zin 702
+ina 701
+rdí 700
+dig 699
+irá 698
+őpo 698
+yar 697
+lan 696
+agá 695
+iac 694
+ezt 692
+sét 692
+kka 689
+ped 689
+ulá 689
+nác 686
+nd_ 685
+íme 685
+_mú 684
+ljá 684
+ing 683
+zöt 682
+za_ 681
+eni 680
+ba_ 677
+füg 677
+kko 677
+zös 677
+mut 676
+óra 676
+llí 675
+aka 674
+ton 674
+ügg 674
+egh 673
+isk 672
+tív 672
+dó_ 669
+ódo 669
+akt 668
+ámá 668
+apj 667
+lál 667
+zda 667
+nat 666
+tán 666
+_lá 663
+cik 662
+_u_ 661
+ntá 661
+cs_ 659
+ikk 659
+_ut 658
+gia 658
+nap 658
+tók 658
+álá 658
+nal 657
+rto 657
+áto 657
+aki 656
+erz 655
+nul 655
+ul_ 655
+ago 654
+atj 652
+_m_ 651
+dap 651
+etv 651
+lté 651
+oko 651
+lto 650
+lós 649
+szk 649
+elõ 648
+bud 647
+gol 647
+_pi 646
+kra 646
+das 645
+ise 642
+rál 642
+éri 641
+edi 640
+vét 640
+ece 639
+zél 639
+azá 637
+son 637
+_ar 636
+abá 636
+gys 636
+gos 634
+any 633
+böz 633
+nbö 633
+zeu 633
+ava 632
+hal 632
+múz 631
+rat 630
+úze 630
+ein 628
+ang 626
+tre 626
+orr 625
+ssá 624
+ede 623
+_kí 622
+le_ 622
+bi_ 621
+éde 621
+lni 620
+_ön 619
+oro 619
+ósá 619
+tjá 616
+zül 615
+élc 615
+_mű 614
+_pá 613
+ng_ 612
+viz 612
+zér 609
+áva 609
+ite 608
+ara 607
+ztá 607
+egi 606
+va_ 605
diff --git a/tika-core/src/main/resources/org/apache/tika/language/is.ngp b/tika-core/src/main/resources/org/apache/tika/language/is.ngp
new file mode 100644
index 0000000000..c46df582b3
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/is.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+um_ 9904
+og_ 9208
+_og 9172
+að_ 8930
+ar_ 8829
+_að 7647
+_í_ 6730
+ur_ 6670
+ir_ 6423
+ið_ 6069
+ing 6017
+_á_ 5368
+_er 5106
+inn 5098
+_vi 4520
+er_ 4359
+_se 4316
+ein 4206
+_ve 4163
+ver 4139
+_st 3850
+and 3655
+sem 3409
+_ei 3356
+ra_ 3330
+til 3319
+na_ 3289
+nar 3273
+_þe 3263
+em_ 3209
+_ti 3176
+við 3133
+_he 3115
+sta 3071
+nga 2999
+_me 2993
+ni_ 2881
+gar 2863
+ndi 2820
+in_ 2787
+nna 2752
+nin 2734
+nn_ 2721
+_a_ 2697
+_sk 2655
+ta_ 2651
+ri_ 2612
+il_ 2588
+st_ 2579
+_sa 2523
+nda 2498
+ða_ 2497
+ann 2480
+ði_ 2472
+num 2412
+_fy 2407
+_um 2403
+_fr 2352
+_ha 2327
+_þa 2283
+nni 2278
+sam 2253
+fyr 2230
+_r_ 2094
+un_ 2078
+rir 2054
+_n_ 2049
+ngu 2038
+und 2037
+yri 2029
+ns_ 2025
+erð 2024
+ður 2018
+ga_ 1987
+_va 1930
+lan 1926
+enn 1906
+með 1904
+_en 1887
+di_ 1887
+ins 1883
+leg 1868
+_s_ 1862
+la_ 1849
+efn 1837
+var 1832
+end 1828
+_i_ 1822
+_ge 1817
+ru_ 1796
+tar 1783
+men 1757
+_ne 1719
+nnu 1684
+sin 1682
+ki_ 1672
+_mi 1666
+lag 1652
+stu 1652
+ndu 1637
+ast 1623
+ja_ 1623
+vin 1623
+ari 1579
+eð_ 1555
+an_ 1548
+gin 1543
+_al 1536
+kja 1513
+arf 1493
+_af 1479
+_in 1478
+ti_ 1477
+_ma 1454
+ess 1450
+lei 1447
+ng_ 1438
+man 1432
+nu_ 1417
+rey 1417
+ðar 1416
+_re 1408
+tir 1406
+far 1404
+_hv 1383
+_un 1380
+ski 1372
+dur 1366
+all 1363
+ega 1360
+erk 1353
+inu 1349
+rei 1330
+eru 1322
+nd_ 1318
+ngi 1301
+_ef 1297
+_fa 1296
+_te 1292
+eng 1287
+ger 1287
+tt_ 1283
+tæk 1278
+ram 1277
+rið 1273
+fra 1269
+gu_ 1264
+_t_ 1257
+mál 1252
+eir 1243
+_fj 1236
+þes 1234
+ist 1221
+en_ 1220
+_sé 1217
+da_ 1215
+_ra 1213
+æði 1213
+_gr 1205
+þei 1201
+una 1200
+_no 1195
+gi_ 1191
+tu_ 1182
+ekk 1178
+ang 1172
+fni 1172
+_le 1166
+ræð 1165
+tur 1165
+haf 1150
+unn 1150
+fa_ 1149
+rði 1141
+slu 1137
+eik 1131
+ka_ 1131
+_l_ 1126
+mar 1121
+_e_ 1119
+hei 1114
+kki 1089
+kni 1088
+ust 1087
+rða 1082
+upp 1082
+hve 1081
+rin 1077
+eða 1076
+ynd 1069
+_up 1068
+eim 1065
+_u_ 1062
+_ár 1057
+_m_ 1040
+nem 1037
+sla 1036
+_la 1034
+ig_ 1030
+mið 1030
+óla 1028
+gum 1022
+for 1021
+ars 1008
+af_ 1003
+ara 1001
+eit 1000
+nað 1000
+skó 999
+tti 998
+tak 990
+_kr 989
+aða 985
+lin 983
+_þv 981
+_ko 979
+rna 979
+myn 977
+jál 964
+gre 958
+_má 953
+nir 952
+rst 951
+kól 950
+tin 942
+eið 940
+on_ 934
+ald 932
+ðin 930
+_ð_ 926
+_sv 922
+ví_ 920
+því 915
+fræ 912
+það 909
+_ná 903
+_g_ 902
+_at 897
+nám 895
+dan 893
+_eð 890
+aði 887
+fti 884
+veg 882
+rau 881
+_ek 879
+afn 878
+_sí 868
+tað 866
+_an 856
+kyn 852
+ina 843
+sto 843
+rðu 840
+sér 839
+_fo 838
+lað 832
+_fl 829
+_ís 828
+gur 828
+tta 828
+is_ 823
+dir 822
+fur 822
+átt 822
+hf_ 820
+lu_ 816
+not 816
+_sj 815
+éla 815
+nns 813
+ran 809
+ygg 809
+hef 807
+ðum 807
+_th 804
+ma_ 803
+þar 802
+_k_ 798
+bor 796
+gt_ 795
+ér_ 792
+jöl 790
+li_ 790
+ísl 788
+eme 785
+rá_ 785
+_ke 780
+fél 777
+frá 775
+fna 767
+þjó 767
+nan 766
+stö 766
+ss_ 765
+_li 764
+rð_ 764
+_be 762
+jar 761
+nds 761
+rsl 761
+_f_ 757
+lda 757
+nnt 757
+afa 756
+_lí 755
+_si 753
+lum 753
+álf 749
+lla 746
+jón 740
+ldi 738
+fjö 737
+nt_ 737
+run 737
+kil 733
+nig 733
+okk 731
+tun 731
+rni 729
+_ta 728
+kar 727
+kur 727
+gja 726
+_hl 722
+lut 721
+ers 720
+jór 720
+_þá 719
+ðir 719
+_br 718
+_út 716
+ðu_ 716
+rar 713
+the 713
+est 711
+rra 708
+kom 707
+rt_ 706
+stj 706
+_þj 705
+al_ 701
+ynn 701
+ita 698
+fer 697
+fi_ 695
+rfi 692
+ett 689
+gan 687
+fin 686
+eri 685
+ska 684
+era 683
+kip 679
+eft 675
+ild 673
+mi_ 671
+org 670
+rke 670
+_my 667
+mun 664
+lög 663
+fan 662
+nfa 661
+arn 658
+agn 657
+vei 654
+dar 653
+din 652
+efu 651
+ten 651
+ill 649
+egi 644
+set 642
+tra 642
+ste 640
+nun 639
+eyr 638
+sti 638
+ark 637
+tjó 636
+mis 633
+rtæ 633
+öld 632
+_ba 631
+ern 631
+_eh 626
+iði 626
+skr 626
+ehf 625
+gna 625
+ggi 623
+kun 623
+ótt 623
+_hj 622
+han 617
+ags 616
+ikn 616
+raf 616
+tla 616
+_of 614
+_tö 614
+_bo 612
+nsk 612
+töl 611
+eig 610
+anf 608
+tei 608
+ent 603
+vík 603
+net 602
+rum 602
+_áh 601
+ion 601
+orð 601
+ken 600
+yfi 599
+lar 598
+stæ 597
+tan 597
+rfs 595
+ngs 594
+her 593
+nið 592
+nst 591
+iti 589
+_au 588
+lau 588
+ld_ 588
+tum 587
+ráð 585
+he_ 582
+eyk 580
+lun 579
+fir 578
+lli 578
+sjá 577
+_tí 576
+irt 574
+_há 573
+ama 573
+kin 573
+hug 572
+erf 571
+arl 570
+hlu 570
+fær 568
+hjá 568
+ban 565
+jóð 565
+síð 563
+vir 563
+rit 561
+ind 557
+eld 556
+aví 555
+ldu 555
+lið 555
+töð 554
+vor 553
+fun 552
+iða 551
+nus 551
+iðs 550
+ækj 549
+lit 548
+gru 547
+ini 546
+ykj 545
+tal 544
+hal 543
+kef 543
+_ga 542
+eil 542
+str 542
+arð 541
+son 541
+irk 540
+jav 540
+_d_ 539
+dum 539
+ker 539
+rkj 539
+fja 537
+aðu 535
+_fe 534
+ter 533
+ík_ 532
+önn 527
+irr 525
+am_ 524
+min 523
+ota 522
+bro 520
+aus 515
+aga 514
+_tr 511
+lýs 510
+ðst 510
+ans 506
+mik 506
+get 502
+_þr 500
+saf 500
+fnu 499
+iki 498
+rot 497
+_lo 496
+iðu 495
+aka 494
+eyt 494
+_hú 492
+_vo 492
+kju 492
+vel 492
+len 491
+sle 490
+val 490
+_hæ 489
+þá_ 489
+nis 488
+rri 487
+ögu 487
+áms 486
+_hi 484
+ætt 484
+_fi 482
+arg 481
+aðr 481
+rla 480
+íða 479
+_úr 478
+ll_ 478
+hel 476
+_ky 473
+ttu 473
+ala 472
+art 472
+mil 472
+íma 471
+_ný 469
+ams 467
+lok 464
+hey 461
+_fé 460
+hús 460
+kum 459
+_ka 458
+ens 456
+ðra 456
+ölv 456
+sum 455
+amt 454
+si_ 454
+ske 454
+aut 453
+kku 453
+nas 453
+ýsi 453
+_lö 452
+at_ 452
+_hö 451
+já_ 451
+agi 450
+uðu 448
+ðan 448
+öðu 447
+_h_ 446
+auð 446
+ipt 446
+sku 446
+bre 443
+_ja 442
+sa_ 442
+unu 442
+lík 441
+_da 440
+ber 440
+im_ 440
+tof 439
+ðni 438
+int 437
+nte 437
+_áf 436
+ds_ 436
+ung 435
+æki 435
+itt 434
+_hu 432
+lis 432
+étt 432
+_fó 431
+_o_ 431
+tni 431
+fat 428
+lvu 427
+ljó 426
+ðal 426
+_v_ 424
+ule 424
+_tæ 423
+_pr 422
+kka 422
+tím 421
+rs_ 420
+ile 419
+kvæ 419
+of_ 419
+_yf 418
+aðs 417
+byg 417
+sso 417
+_b_ 416
+bra 416
+dag 414
+oru 414
+ali 413
+ku_ 413
+egn 412
+egu 410
+rsk 410
+tvi 410
+_su 409
+auk 409
+bók 409
+tek 409
+es_ 408
+kið 408
+ssu 408
+_ör 407
+_fu 406
+lt_ 406
+rne 406
+_by 404
+iss 404
+kri 404
+ónu 404
+ári 402
+ækn 402
+úr_ 402
+ðsl 401
+les 400
+líf 400
+nsl 400
+rif 400
+kra 398
+ssa 398
+_or 397
+rf_ 397
+órn 396
+ggj 395
+ssi 395
+ert 394
+þeg 393
+_ok 392
+rét 391
+tis 391
+gir 390
+kna 388
+hen 386
+llu 386
+tið 383
+asa 381
+atl 381
+mei 379
+tíð 379
+_kl 378
+jum 378
+ðun 378
+_ég 376
+ég_ 376
+fól 375
+öll 375
+ólk 374
+atv 371
+_co 370
+jal 370
+_j_ 369
+ism 369
+vef 369
+_mu 368
+áfa 367
+iðn 366
+búa 365
+nle 365
+yrn 363
+gð_ 361
+sig 361
+_sp 360
+ag_ 360
+lur 360
+tri 360
+rfa 359
+urð 359
+ær_ 359
+par 358
+hva 357
+rle 356
+rn_ 356
+svo 355
+bún 353
+nta 353
+it_ 352
+ryg 352
+ögð 351
+_ó_ 349
+akl 349
+alm 348
+ris 348
+els 347
+_hr 346
+fle 346
+ðis 346
+ft_ 345
+ála 345
+llt 343
+_fæ 340
+_þ_ 340
+gun 340
+tio 340
+ppl 339
+rka 339
+íðu 339
+dót 337
+áhe 337
+erj 336
+höf 335
+kli 335
+eti 334
+yrk 334
+ef_ 332
+hin 332
+lst 332
+sen 332
+ell 331
+_bæ 330
+_na 330
+etu 330
+el_ 329
+eta 328
+ed_ 326
+uta 326
+svi 325
+yti 325
+_rá 324
+afl 324
+kr_ 324
+tök 324
+ilk 323
+rga 323
+bar 321
+taf 320
+uð_ 320
+vo_ 320
+æri 320
+sve 319
+flu 318
+sjó 318
+jaf 317
+oma 317
+plý 316
+ál_ 316
+ókn 316
+sst 315
+vör 315
+pp_ 314
+anu 313
+sar 313
+óða 313
+_ið 312
+msk 312
+ort 312
+reg 312
+_sö 311
+lky 311
+ons 311
+ros 311
+tku 311
+las 310
+sín 310
+ull 310
+mur 309
+otk 309
+_þó 308
+_hé 306
+afi 306
+lfu 306
+_læ 305
+_sm 305
+amk 305
+ani 305
+gið 305
+ára 305
+íbú 305
+öry 305
+jár 304
+örn 304
+_íb 303
+igi 303
+imi 303
+_fá 302
+væm 302
+ati 300
+urs 300
+ðas 300
+_bi 299
+gs_ 299
+nur 299
+et_ 298
+etn 298
+ren 298
+rki 298
+sko 298
+kle 297
+úa_ 297
+ldr 296
+tas 296
+_bó 295
+_ým 295
+or_ 295
+gri 294
+kan 294
+álp 294
+gas 293
+mæl 292
+orm 292
+sók 292
+vað 292
+mt_ 291
+gni 290
+glu 289
+ls_ 289
+nef 289
+þet 289
+ley 288
+arv 287
+æða 287
+lme 286
+uga 286
+þjá 286
+ut_ 285
+úna 285
+ost 284
+sýn 284
+ðla 284
+dra 283
+gen 283
+ákv 283
+_mæ 282
+_öl 282
+krá 282
+fal 281
+kað 281
+au_ 280
+ift 280
+ona 280
+_hó 279
+eg_ 279
+ötu 279
+_sn 278
+egg 278
+ægt 278
+æðu 278
+gag 277
+tel 277
+þan 277
+aðg 275
+rg_ 275
+þau 275
+iga 274
+oða 274
+rek 274
+ðge 274
+þát 274
+rli 273
+gra 272
+ila 272
+áðu 272
+jas 271
+ðfe 271
+arh 270
+fel 270
+hön 270
+bei 269
+nor 269
+re_ 269
+su_ 269
+ár_ 269
+ún_ 269
+itu 268
+uni 268
+hér 267
+oss 267
+jör 265
+væð 265
+ætl 265
+ask 264
+jun 264
+uri 264
+amb 263
+ema 263
+iðl 263
+_gu 262
+dal 262
+pur 262
+smu 262
+stó 262
+ofn 260
+ot_ 260
+try 260
+vél 260
+afr 259
+gis 259
+_þæ 257
+fre 257
+pa_ 257
+rma 257
+ana 256
+hóp 256
+kis 256
+ndr 256
+rík 256
+ts_ 256
+fla 255
+mst 255
+sé_ 255
+tuð 255
+_is 254
+öru 254
+_nú 253
+_tv 253
+fst 253
+ika 253
+ili 253
+van 253
+íðn 253
+_de 252
+kos 252
+urn 252
+ám_ 252
+_ri 251
+_sl 251
+ful 251
+ors 251
+ðil 251
+ög_ 251
+_to 250
+egl 249
+eyn 249
+sky 249
+má_ 248
+oft 248
+rgu 248
+hri 247
+mkv 247
+öku 247
+bur 246
+fn_ 246
+fum 246
+gil 246
+aft 245
+kif 245
+ðið 245
+jan 244
+sdó 244
+sme 244
+lpa 243
+rgi 243
+tæð 243
+aun 242
+æmi 242
+_ás 241
+_ö_ 241
+avi 241
+_pa 240
+_öð 240
+pta 240
+fjá 238
+íka 238
+fyl 237
+hre 237
+hæg 237
+nal 237
+tve 237
+aml 236
+kal 236
+gul 235
+rað 235
+rk_ 235
+_væ 234
+tær 234
+_næ 231
+göt 231
+mót 231
+róf 231
+_ræ 230
+as_ 229
+egt 229
+öng 229
+_ho 228
diff --git a/tika-core/src/main/resources/org/apache/tika/language/it.ngp b/tika-core/src/main/resources/org/apache/tika/language/it.ngp
new file mode 100644
index 0000000000..c17e27fd95
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/it.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+to_ 75545
+_di 71801
+_co 69441
+_de 69420
+ion 65997
+re_ 61205
+ne_ 59892
+la_ 58690
+ent 56018
+di_ 55565
+one 50667
+_in 50615
+le_ 48644
+del 44222
+zio 42592
+che 41776
+ell 41403
+he_ 41009
+_pr 40198
+ti_ 40157
+te_ 39046
+con 38401
+_ch 36586
+men 35513
+nte 35359
+no_ 34461
+_un 34023
+_la 32971
+_e_ 32966
+per 32168
+_pe 30225
+azi 29233
+lla 28803
+_qu 28795
+_al 28585
+are 26622
+ta_ 26401
+li_ 26117
+in_ 25316
+_ri 25268
+_si 24870
+com 24561
+_no 23220
+nto 23173
+_il 22688
+il_ 22487
+pro 22263
+ni_ 22123
+on_ 21511
+sta 21407
+er_ 21129
+io_ 21113
+est 21043
+si_ 20926
+ame 20419
+ere 20411
+pre 20275
+ato 20092
+ssi 20073
+_pa 19646
+_po 19609
+_so 19277
+el_ 19187
+ono 19085
+ess 18759
+all 18645
+_ne 18598
+ett 18428
+ia_ 18278
+ati 18029
+que 17941
+_a_ 17921
+ro_ 17878
+ll_ 17740
+ter 17687
+_se 17583
+gli 17425
+res 17381
+_re 16700
+rop 16632
+tat 16350
+un_ 16325
+ra_ 16189
+mo_ 16135
+tti 16134
+_da 16074
+nti 16049
+tra 15995
+ale 15977
+_st 15870
+ri_ 15863
+att 15813
+tto 15623
+ica 15621
+ost 15621
+lle 15578
+na_ 15453
+par 15395
+_su 15319
+_l_ 15307
+ei_ 14940
+ali 14864
+non 14823
+_le 14629
+sio 14621
+do_ 14374
+ant 14130
+oni 14051
+_es 14023
+_è_ 13824
+tà_ 13644
+ari 13494
+ues 13356
+pos 12935
+str 12738
+lo_ 12580
+_ma 12485
+so_ 12466
+iam 12421
+sti 12321
+esi 12224
+tiv 12178
+se_ 12143
+ont 11693
+uro 11613
+tta 11450
+una 11383
+enz 11379
+nel 11367
+tic 11356
+_an 11345
+_i_ 11290
+ma_ 11274
+za_ 11255
+nta 11191
+rat 11122
+uni 11097
+eri 11095
+_mo 11084
+ico 11075
+_me 10854
+qua 10852
+ist 10840
+mis 10811
+ten 10727
+nor 10687
+ca_ 10641
+eur 10545
+iss 10490
+col 10446
+ore 10443
+_eu 10415
+mmi 10402
+ver 10359
+ità 10328
+ste 10250
+int 10197
+_mi 10182
+amo 10081
+sto 10068
+omm 10058
+rit 10043
+_tr 9969
+al_ 9745
+ide 9732
+anc 9652
+lit 9564
+ope 9534
+vol 9532
+tan 9493
+utt 9489
+bil 9455
+tar 9412
+da_ 9397
+tro 9387
+era 9354
+nza 9246
+_ci 9155
+ori 9088
+ire 9062
+_fa 9045
+cor 9036
+olt 9023
+dei 8945
+ons 8906
+ris 8902
+sen 8831
+oli 8814
+_ca 8777
+ran 8748
+chi 8704
+tor 8691
+ese 8677
+me_ 8656
+end 8651
+ric 8605
+sse 8407
+iti 8371
+ndo 8367
+tut 8301
+den 8290
+ora 8279
+ser 8244
+ito 8193
+son 8175
+sig 8170
+ond 8127
+der 8099
+ili 8076
+rio 8046
+_do 8004
+ann 7982
+ssa 7934
+ort 7920
+_te 7909
+ina 7871
+por 7846
+gra 7838
+ita 7826
+ntr 7822
+pri 7762
+izi 7696
+sid 7674
+and 7657
+tal 7657
+_tu 7654
+ano 7599
+_ha 7588
+ata 7581
+ci_ 7579
+nzi 7541
+_pi 7423
+art 7418
+_im 7395
+ndi 7333
+ome 7328
+sso 7247
+sul 7163
+zia 7136
+gio 7125
+ini 7122
+fic 7087
+spe 7067
+erc 7060
+oss 7023
+rev 6990
+dir 6989
+for 6966
+dal 6903
+mi_ 6885
+co_ 6875
+_vo 6871
+ual 6851
+app 6828
+va_ 6789
+evo 6782
+po_ 6776
+ura 6729
+dis 6706
+ona 6693
+anz 6668
+ass 6642
+_fo 6634
+ggi 6630
+imp 6597
+sar 6565
+_vi 6543
+nsi 6524
+ela 6514
+gno 6498
+nch 6490
+tri 6480
+sia 6448
+ene 6423
+sa_ 6410
+nal 6397
+ate 6330
+ria 6323
+iar 6298
+iva 6298
+fin 6284
+rta 6282
+opo 6273
+nda 6268
+cia 6253
+_ve 6250
+tre 6242
+rre 6209
+acc 6203
+_gi 6193
+itt 6191
+_ad 6176
+ien 6172
+nno 6115
+ola 6115
+tte 6106
+olo 6098
+arl 6081
+zza 6078
+sol 6039
+ici 6015
+ich 5947
+isc 5946
+_ta 5888
+ppo 5876
+_li 5848
+ven 5844
+_lo 5801
+_ra 5780
+ive 5757
+ole 5742
+ltr 5723
+pol 5719
+tur 5705
+vor 5701
+lam 5695
+mpo 5692
+raz 5652
+llo 5636
+man 5626
+_fi 5593
+alt 5590
+ine 5573
+ero 5566
+ime 5554
+rla 5544
+min 5543
+ott 5517
+ve_ 5500
+orm 5499
+_pu 5491
+ea_ 5467
+_at 5444
+lio 5443
+mer 5437
+rel 5413
+cos 5401
+nde 5376
+_sa 5369
+_gr 5358
+rti 5355
+nos 5292
+rim 5292
+ign 5279
+ani 5248
+ren 5234
+_as 5209
+orr 5190
+tit 5148
+ior 5147
+ial 5142
+_gl 5140
+_ac 5138
+rma 5111
+nio 5110
+_ap 5097
+ha_ 5085
+ers 5083
+isp 5066
+ebb 5047
+ern 5032
+_av 5021
+ile 5020
+laz 4961
+bia 4922
+cco 4903
+omp 4891
+iù_ 4881
+più 4873
+uzi 4858
+ce_ 4851
+spo 4851
+vo_ 4849
+inc 4842
+ces 4825
+_am 4795
+ui_ 4785
+pet 4776
+cat 4716
+ivi 4693
+uto 4690
+occ 4682
+tem 4669
+ove 4653
+nit 4643
+ara 4617
+izz 4572
+fer 4544
+ert 4539
+lat 4536
+_sp 4524
+eci 4508
+ret 4505
+ull 4489
+onc 4483
+uan 4468
+bbi 4464
+_or 4455
+_on 4454
+rà_ 4453
+reg 4451
+abi 4447
+ifi 4420
+oro 4415
+eme 4414
+oll 4383
+mat 4382
+car 4368
+egl 4365
+vi_ 4359
+ind 4351
+nci 4339
+ttu 4328
+ral 4317
+omu 4310
+igl 4303
+ner 4294
+itu 4289
+bbe 4279
+de_ 4259
+leg 4259
+agg 4256
+emp 4243
+eco 4236
+rte 4226
+ie_ 4209
+ord 4208
+ece 4201
+giu 4158
+_cr 4157
+sit 4138
+avo 4132
+reb 4093
+cen 4080
+emb 4066
+_va 4062
+or_ 4045
+osi 4030
+ai_ 4028
+mun 4020
+_cu 4018
+pea 4005
+iat 4001
+nat 3990
+ima 3958
+ede 3920
+ibi 3918
+_sc 3902
+egi 3897
+upp 3876
+rie 3875
+_ai 3862
+amb 3862
+cit 3852
+ivo 3813
+dic 3805
+rog 3804
+erm 3803
+tua 3795
+rar 3792
+lar 3772
+lor 3770
+ché 3767
+hé_ 3767
+iso 3767
+mod 3766
+deg 3757
+odo 3749
+ens 3745
+mbi 3732
+ue_ 3711
+_nu 3702
+lta 3698
+erv 3682
+lic 3680
+aff 3678
+nco 3627
+sem 3625
+rov 3624
+ino 3619
+cre 3618
+ian 3616
+sis 3588
+cer 3583
+mbr 3579
+iri 3567
+qui 3543
+aes 3531
+imi 3527
+_au 3518
+go_ 3494
+pae 3493
+eve 3469
+gen 3464
+tes 3449
+ult 3443
+pon 3433
+rin 3421
+_ab 3414
+_sv 3406
+tam 3393
+hia 3375
+ema 3368
+err 3365
+_ba 3362
+omi 3347
+ram 3329
+_af 3319
+fat 3313
+alc 3302
+iet 3302
+dam 3294
+nom 3280
+rso 3275
+ffi 3255
+via 3254
+_ec 3253
+imo 3250
+be_ 3241
+gua 3241
+esp 3224
+rsi 3221
+uti 3218
+fon 3212
+ure 3208
+ppr 3205
+ite 3186
+dov 3182
+ad_ 3171
+oci 3168
+cui 3165
+_fr 3164
+isi 3161
+nan 3151
+soc 3130
+uta 3126
+rif 3116
+mol 3115
+_ag 3111
+rea 3096
+ard 3088
+mpi 3086
+seg 3085
+ova 3083
+inf 3072
+pen 3064
+pot 3062
+_ce 3059
+abb 3055
+edi 3053
+din 3036
+des 3029
+opr 3028
+vis 3024
+ron 3012
+roc 2961
+sco 2943
+dev 2938
+cio 2937
+uar 2937
+naz 2935
+tim 2935
+rem 2911
+bri 2897
+dia 2893
+ice 2875
+uel 2866
+far 2861
+lto 2857
+sci 2854
+_oc 2851
+hi_ 2849
+niz 2839
+lia 2815
+_na 2814
+ngo 2808
+ber 2806
+ezz 2805
+egu 2804
+_og 2796
+div 2795
+lme 2792
+unt 2792
+pli 2786
+liz 2774
+cce 2773
+ume 2765
+lem 2754
+_ar 2748
+_ge 2747
+mpr 2743
+ors 2741
+rno 2740
+lav 2739
+rca 2734
+mem 2732
+bie 2699
+can 2695
+ras 2686
+uov 2685
+ffe 2684
+nse 2682
+rig 2675
+vit 2664
+eo_ 2663
+rod 2658
+cun 2656
+ote 2648
+taz 2639
+amm 2634
+rda 2631
+lan 2619
+tin 2611
+eno 2610
+_du 2600
+dif 2595
+hie 2590
+van 2590
+cip 2589
+rdi 2586
+ing 2583
+lti 2581
+rch 2580
+ele 2575
+ust 2572
+sce 2554
+tio 2547
+eng 2545
+_el 2543
+ave 2542
+emo 2542
+rec 2540
+oi_ 2537
+egn 2536
+rme 2528
+tru 2527
+oce 2526
+dat 2525
+sib 2521
+rap 2519
+mpe 2518
+nic 2512
+_o_ 2511
+_em 2503
+nce 2503
+vil 2488
+ble 2476
+_op 2475
+ego 2470
+iut 2465
+inv 2460
+rmi 2457
+ogg 2453
+adi 2449
+_bi 2427
+nar 2390
+pa_ 2388
+sca 2388
+evi 2385
+ete 2380
+lcu 2379
+fro 2354
+nuo 2340
+alm 2337
+ger 2327
+_be 2316
+rag 2309
+cam 2306
+rci 2296
+rob 2295
+sos 2294
+orn 2286
+olu 2284
+cur 2281
+cis 2277
+ier 2276
+dot 2273
+sim 2265
+sic 2260
+onf 2257
+ced 2251
+opp 2250
+eni 2244
+mon 2244
+lin 2241
+peo 2238
+asp 2232
+gia 2230
+nve 2229
+ze_ 2229
+scu 2212
+_fu 2208
+han 2206
+nec 2204
+zi_ 2203
+ccu 2196
+esc 2192
+ogr 2189
+val 2182
+dur 2178
+_is 2174
+dar 2173
+fra 2172
+cas 2171
+ota 2170
+rei 2169
+ua_ 2164
+rad 2163
+emi 2161
+teg 2150
+lim 2145
+nsa 2144
+mpl 2143
+dec 2135
+set 2120
+agl 2115
+lib 2105
+mar 2102
+opa 2102
+cup 2101
+isu 2097
+svi 2097
+ega 2094
+ovr 2092
+esa 2088
+paz 2087
+_lu 2084
+nis 2082
+obl 2065
+asi 2064
+rna 2061
+rez 2060
+cri 2059
+iò_ 2057
+pia 2056
+ciò 2054
+uss 2045
+cie 2040
+rdo 2032
+ilu 2028
+gol 2026
+su_ 2022
+ade 2015
+igu 2015
+_ed 2013
+nze 2006
+mag 2002
+lup 2001
+gni 1999
+sec 1999
+icu 1987
+rib 1980
+obi 1973
+eva 1972
+vat 1969
+avi 1968
+met 1968
+pun 1967
+rto 1966
+vre 1962
+_d_ 1958
+pio 1957
+riv 1955
+ros 1945
+uno 1943
+bas 1937
+rol 1932
+upa 1932
+ed_ 1930
+nut 1929
+ben 1927
+obb 1924
+_en 1915
+nei 1914
+siz 1913
+_ob 1909
+det 1908
+iun 1897
+eff 1890
+zaz 1880
+bli 1877
+mic 1870
+rse 1868
+atu 1865
+gan 1863
+gar 1861
+ogn 1856
+mit 1855
+ado 1852
+_ef 1847
+ute 1846
+avv 1842
+gna 1834
+enu 1832
+ana 1821
+bit 1816
+mes 1815
+red 1815
+bbl 1813
+nqu 1811
+let 1807
+var 1799
+une 1797
+tir 1794
+nni 1789
+uma 1789
+dim 1786
+ius 1783
+mig 1779
+ubb 1778
+ila 1776
+uin 1771
+ga_ 1769
+pes 1769
+amp 1768
+gi_ 1765
+get 1746
+ul_ 1744
+san 1739
+ins 1733
+lte 1724
+caz 1718
+ena 1715
+sì_ 1714
+odi 1705
+don 1697
+ied 1697
+rid 1687
+ife 1677
+diz 1676
+aus 1671
+ida 1663
+uri 1663
+ved 1657
+uaz 1653
+lut 1651
+sua 1651
+cus 1647
+vel 1635
+ezi 1628
+suo 1628
+rup 1626
+già 1609
+ià_ 1609
+ast 1606
+edo 1606
+luz 1606
+eal 1604
+aut 1603
+mme 1600
+ung 1600
+gru 1597
+vot 1596
+erà 1592
+rni 1586
+mil 1581
+idi 1576
+oma 1565
+nol 1562
+_ev 1561
+dit 1558
+_ga 1546
+log 1544
+agi 1535
+eta 1534
+maz 1534
+neg 1530
+può 1529
+uò_ 1529
+ecc 1527
+clu 1526
+cci 1519
+tab 1519
+ibe 1516
+lus 1514
+ibu 1511
+pi_ 1510
+rve 1510
+sot 1510
+vvi 1509
+gue 1499
+ogl 1497
+sat 1497
+pra 1491
+eti 1489
+tav 1489
+osc 1488
+_ul 1487
+ane 1485
+ace 1484
+lis 1473
+otr 1472
+rut 1471
+dan 1470
+zat 1469
+gov 1468
+_go 1458
+ars 1449
+asc 1448
+dob 1448
+ghi 1448
+tad 1437
+sch 1435
+mio 1426
+osa 1425
+tec 1421
+mma 1419
+ovi 1418
+rne 1418
+spi 1418
+alu 1416
+nso 1416
+sab 1414
+noi 1413
+iff 1411
+ava 1407
+ttr 1398
+arm 1394
+gui 1394
+nia 1394
+_ho 1391
+nam 1390
+usi 1390
+ho_ 1386
+pub 1383
+nfo 1382
+cca 1375
+fav 1372
+lli 1372
+vid 1372
+raf 1371
+uir 1369
+org 1366
+uo_ 1365
+mia 1360
+cal 1358
+gge 1355
+_os 1354
+cap 1354
+efi 1353
+pie 1351
+rro 1349
+rga 1348
+vve 1347
+med 1346
+oti 1345
+lie 1344
+api 1338
+liv 1337
+età 1336
+rvi 1330
+tuz 1330
+rav 1328
+odu 1327
+spa 1327
+idu 1322
+sor 1322
+aro 1320
+ase 1320
+nga 1319
+ovo 1318
+inu 1315
+uit 1313
+erg 1305
+edu 1303
+fet 1300
+pur 1299
+_er 1296
+orz 1296
+ism 1295
+til 1295
+alo 1292
+rom 1287
+_az 1280
+agr 1279
+nge 1279
+ngr 1278
+uis 1278
+_ru 1277
+aci 1270
+sin 1268
+onv 1266
+ssu 1264
+pas 1260
+pec 1256
+sur 1251
+_fe 1248
+nir 1248
+nsu 1241
+tol 1240
+pit 1238
+tia 1234
+gon 1232
+due 1231
+nea 1231
+ddi 1230
+vam 1229
+aiu 1220
+ipa 1218
+ipi 1217
diff --git a/tika-core/src/main/resources/org/apache/tika/language/lt.ngp b/tika-core/src/main/resources/org/apache/tika/language/lt.ngp
new file mode 100644
index 0000000000..35ef816e59
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/lt.ngp
@@ -0,0 +1,1209 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+ini 159130
+s_p 136654
+ijo 122792
+usi 109788
+jos 107645
+ien 102237
+iau 101203
+tin 98655
+ali 97119
+aus 96445
+s_s 90636
+o_p 82919
+pas 76537
+iet 75896
+uvo 73539
+ink 72204
+kai 70264
+met 69573
+oje 69524
+s_i 69391
+sta 69212
+s_a 68807
+etu 68576
+lie 67524
+tai 67366
+s_k 67201
+iai 65565
+pri 64365
+cij 63754
+pra 62815
+ent 62543
+tas 61206
+uri 60404
+die 60339
+s_v 59941
+s_t 59421
+ant 59244
+kur 58824
+ist 58773
+ais 58720
+par 57557
+tar 56888
+i_p 56639
+min 55905
+mas 55042
+lai 53592
+adi 53477
+nin 53428
+imo 53282
+eri 52816
+gal 52650
+rin 52324
+ius 51954
+vie 51668
+ina 51595
+tuv 51364
+s_d 51340
+inė 50967
+s_n 50915
+o_s 50529
+per 50345
+asi 50040
+čia 49622
+sti 49324
+ria 48966
+s_b 48614
+tik 48489
+ų_p 47566
+tei 47284
+s_m 46994
+pro 46728
+ija 46622
+int 46240
+lin 46223
+oli 45286
+aug 45194
+nės 45165
+iki 45097
+val 44965
+kad 44762
+rei 44727
+eik 44595
+ran 43262
+ios 42986
+art 42983
+iam 42904
+ama 42389
+dar 41920
+tra 41800
+ari 41088
+kar 40704
+buv 40452
+išk 40340
+i_s 39698
+nių 39538
+toj 39340
+o_k 39240
+uot 39079
+avo 38925
+sto 38437
+aik 38434
+sak 38392
+pat 38170
+oja 38106
+nti 38046
+and 37960
+nuo 37925
+o_a 37528
+vai 37109
+s_r 37027
+rie 36575
+ima 36250
+dži 36150
+ino 35879
+kom 35652
+enį 35646
+ies 35440
+aip 35412
+o_t 35270
+uos 35175
+vos 35022
+eli 35016
+sav 34879
+ame 34802
+nas 34747
+men 34734
+est 34700
+s_g 34575
+kas 34537
+end 34503
+ų_s 34397
+ras 34268
+nis 34174
+kal 34092
+ori 34018
+pre 33908
+avi 33907
+rti 33845
+lio 33617
+nes 33416
+ėjo 33094
+ren 33046
+o_v 33041
+o_m 33007
+tur 32939
+s_l 32885
+ika 32882
+ter 32591
+aut 32530
+nio 32467
+mon 32251
+sia 31903
+ris 31726
+lia 31598
+eis 31331
+ų_k 31214
+sio 31193
+var 30935
+pir 30876
+nia 30796
+ose 30724
+aci 30646
+etų 30333
+eni 30096
+eig 29982
+iti 29963
+rad 29834
+ats 29741
+ing 29643
+nka 29366
+kon 29259
+mis 29240
+aud 29189
+eči 29187
+omi 29121
+tos 28908
+o_i 28902
+a_p 28666
+nta 28206
+e_p 28094
+irt 28062
+iko 28035
+i_i 28032
+kla 28004
+are 27968
+din 27854
+ili 27784
+i_n 27745
+tis 27740
+lau 27597
+tat 27590
+kin 27293
+nau 27284
+asa 27223
+o_d 27142
+o_n 27018
+kel 26795
+vis 26752
+ati 26751
+irm 26533
+jam 26466
+auj 26466
+ų_m 26457
+oma 26174
+o_r 26138
+s_į 26036
+gia 26032
+oni 25744
+vir 25725
+tor 25626
+riu 25603
+nči 25544
+sus 25479
+i_k 25472
+oti 25423
+vyk 25288
+iek 25282
+gin 25205
+ala 25159
+ntr 25023
+i_a 25011
+sij 24954
+i_t 24940
+ici 24880
+kos 24822
+enk 24585
+čių 24491
+sau 24328
+eti 24311
+raš 24191
+joj 24153
+ane 24141
+žia 24121
+sie 24115
+ams 24113
+ben 24113
+auk 24112
+ita 24110
+isi 24026
+dau 24009
+pie 23921
+str 23827
+i_b 23715
+lan 23667
+imu 23615
+ų_a 23535
+tvi 23473
+ide 23466
+ndr 23419
+ato 23399
+dėl 23394
+api 23356
+rij 23263
+nto 23215
+yra 23185
+ova 23113
+čio 23058
+ste 22985
+man 22817
+lit 22796
+iuo 22568
+ani 22553
+aty 22469
+den 22448
+ket 22424
+kia 22396
+ojo 22359
+į_p 22318
+anč 22302
+nim 22280
+šal 22185
+ank 22164
+ena 22156
+ų_i 22156
+nus 22144
+jus 22125
+ona 22054
+yti 22020
+ami 22001
+arb 21994
+sis 21922
+rio 21744
+mok 21682
+did 21672
+ybė 21613
+ver 21543
+ska 21465
+rau 21450
+ekt 21440
+e_s 21419
+imą 21261
+tus 21109
+vil 21091
+ven 21066
+žin 21062
+ara 21052
+rus 21051
+nij 21022
+nam 21022
+kti 20974
+ado 20929
+eta 20911
+tuo 20890
+rta 20873
+s_š 20708
+ion 20705
+lių 20689
+vei 20533
+lis 20474
+rių 20379
+ast 20374
+nai 20365
+čiu 20363
+tie 20293
+mos 20283
+bus 20273
+s_j 20268
+r_p 20206
+eng 20174
+i_v 20169
+o_b 20158
+gos 20137
+ele 20087
+ieš 20063
+ą_p 20059
+jau 20027
+uti 20025
+era 19968
+lik 19958
+tij 19908
+ung 19882
+vad 19855
+eto 19718
+ų_t 19633
+liu 19624
+i_d 19601
+oki 19582
+ngt 19529
+mai 19489
+neš 19415
+yri 19405
+rit 19243
+yje 19202
+kim 19120
+osi 19078
+nki 19069
+pol 19036
+rim 19028
+alt 19022
+als 19011
+eno 18995
+rma 18938
+dal 18885
+tad 18884
+ndi 18860
+ų_v 18848
+bos 18781
+o_l 18727
+niu 18697
+ači 18695
+oto 18673
+net 18634
+jai 18624
+ait 18614
+sit 18587
+kus 18537
+vim 18536
+ald 18495
+rez 18473
+a_s 18465
+ata 18455
+amo 18413
+ava 18311
+aly 18250
+ana 18208
+tre 18204
+uli 18184
+rov 18140
+atv 18079
+uoj 18032
+ano 17974
+nos 17947
+imi 17884
+ada 17864
+tel 17860
+o_g 17819
+uro 17810
+ard 17719
+pal 17667
+tan 17658
+itų 17649
+gyv 17619
+ome 17569
+pag 17541
+dam 17540
+vyr 17522
+ask 17461
+tro 17412
+kst 17335
+akė 17298
+bei 17263
+spa 17211
+kra 17183
+ros 17135
+rod 17133
+uto 17098
+ias 17082
+maž 17076
+omo 17037
+vas 17028
+iči 17022
+nal 17009
+esi 16800
+dos 16758
+duo 16757
+jas 16752
+lei 16688
+ate 16619
+roc 16602
+iem 16589
+tam 16562
+ybo 16532
+u_p 16409
+iją 16383
+ers 16264
+e_t 16234
+ono 16134
+ų_b 16110
+lst 16086
+ų_n 16065
+kta 16061
+jim 16039
+tom 16004
+mus 15977
+kci 15963
+ų_d 15960
+sty 15882
+ų_g 15857
+pos 15821
+rek 15812
+aid 15739
+bal 15684
+dra 15594
+i_į 15593
+mie 15582
+ary 15559
+a_i 15555
+rai 15550
+rat 15545
+ijų 15534
+kie 15508
+ian 15508
+ioj 15482
+dro 15466
+bės 15465
+iln 15425
+nkt 15412
+ral 15410
+ert 15393
+tyb 15390
+o_į 15324
+ėje 15293
+žmo 15281
+igi 15265
+aba 15257
+lni 15239
+bai 15239
+ą_s 15144
+ė_p 15124
+ų_r 15008
+alė 14978
+uom 14974
+der 14955
+ovė 14936
+aka 14870
+ugi 14862
+dov 14824
+ruo 14818
+aro 14818
+s_e 14673
+ikt 14650
+arp 14646
+ain 14644
+s_ž 14641
+pen 14640
+ški 14593
+san 14569
+cia 14546
+sir 14505
+lti 14465
+dai 14456
+a_n 14448
+kit 14440
+aži 14437
+gra 14319
+ime 14286
+kam 14253
+tri 14251
+e_v 14250
+eši 14202
+imt 14193
+dim 14179
+r_k 14168
+ą_i 14135
+spr 14131
+ito 14124
+pan 14115
+aul 14114
+yve 14095
+pav 14071
+ner 14051
+eur 13954
+tau 13937
+žio 13930
+ų_l 13916
+rto 13877
+ust 13854
+pak 13852
+pad 13829
+eki 13779
+šia 13774
+aig 13762
+kau 13753
+nep 13732
+kri 13644
+ski 13633
+sių 13605
+ost 13600
+lim 13597
+ėju 13587
+aun 13583
+ban 13544
+i_g 13517
+tov 13513
+nko 13466
+ira 13449
+ėja 13447
+len 13440
+yta 13425
+nar 13424
+nie 13401
+ėti 13316
+dėj 13293
+nor 13275
+siu 13253
+e_b 13248
+a_a 13246
+lic 13246
+tim 13243
+jav 13213
+ale 13208
+uja 13190
+sin 13189
+ram 13151
+kre 13121
+ezi 13114
+uma 13099
+eks 13075
+tač 13002
+a_t 12982
+voj 12981
+ial 12980
+urė 12968
+uol 12911
+ieč 12891
+ida 12884
+kan 12866
+i_l 12853
+jog 12839
+das 12838
+bil 12835
+į_s 12830
+kto 12829
+nei 12813
+rik 12801
+būt 12789
+por 12770
+i_m 12759
+aim 12632
+ang 12611
+rga 12591
+jis 12591
+šio 12576
+ngi 12558
+imų 12541
+ota 12524
+eim 12513
+zid 12504
+s_u 12449
+dir 12442
+e_i 12415
+šim 12412
+iva 12405
+ine 12393
+ikė 12320
+i_r 12308
+r_s 12298
+ort 12293
+eko 12282
+jun 12256
+ovo 12171
+onė 12170
+bin 12164
+lės 12157
+jan 12151
+cen 12147
+epa 12142
+gim 12127
+u_s 12107
+ind 12092
+ite 12003
+e_a 12002
+a_k 11998
+pla 11983
+mer 11978
+uta 11950
+nga 11945
+idž 11939
+tru 11932
+u_k 11907
+pau 11865
+e_n 11864
+ngo 11838
+i_j 11823
+e_k 11812
+eid 11810
+for 11809
+akc 11799
+kir 11796
+nat 11777
+nda 11692
+reč 11641
+aps 11640
+p_p 11639
+gai 11634
+paž 11629
+sut 11625
+emo 11619
+ryt 11614
+rna 11610
+one 11601
+opo 11589
+tyn 11551
+ešė 11544
+ern 11540
+ene 11540
+nan 11536
+akt 11533
+kio 11529
+mat 11527
+mad 11519
+gru 11477
+isa 11403
+kov 11353
+gan 11309
+dav 11291
+udo 11290
+tūr 11243
+oji 11237
+tst 11236
+tok 11229
+a_d 11220
+adė 11220
+nte 11201
+ikr 11196
+cin 11174
+iri 11157
+erg 11122
+aga 11120
+las 11109
+etv 11089
+šin 11066
+ikl 11053
+obi 11044
+gti 11041
+tal 11032
+spe 11027
+u_n 11020
+ųjų 11019
+rop 10969
+vin 10960
+kol 10877
+r_t 10860
+nom 10852
+uda 10836
+eną 10829
+ans 10822
+ger 10812
+lta 10812
+i_š 10779
+nci 10778
+mln 10764
+olo 10754
+lyg 10730
+lij 10719
+gen 10718
+ūks 10695
+jon 10669
+vės 10657
+r_v 10651
+dyt 10638
+ybi 10624
+itu 10607
+evi 10584
+sek 10570
+s_f 10547
+idė 10534
+orm 10517
+e_d 10516
+stu 10514
+į_k 10512
+įst 10484
+tsi 10461
+inę 10412
+ako 10388
+umo 10365
+yva 10357
+alb 10341
+tūk 10323
+ė_s 10298
+tės 10268
+nėj 10233
+a_b 10218
+o_š 10201
+igo 10143
+ška 10112
+a_v 10108
+mob 10106
+sim 10086
+rog 10077
+rtu 10048
+ndo 10024
+r_n 10015
+ūna 9995
+ero 9990
+uni 9954
+tyt 9935
+mpi 9904
+ere 9871
+gri 9864
+edi 9816
+ark 9766
+ins 9754
+kių 9737
+eiš 9737
+alo 9715
+idi 9710
+gas 9700
+ten 9695
+ėji 9687
+vid 9668
+sei 9648
+o_j 9646
+ą_k 9642
+bar 9565
+usk 9557
+ber 9487
+pin 9481
+klu 9472
+mėn 9467
+gam 9454
+dij 9439
+inu 9430
+įsi 9410
+iej 9390
+rem 9381
+rmi 9348
+dvi 9348
+nku 9326
+res 9307
+igū 9273
+sik 9270
+esn 9248
+ugo 9235
+dan 9230
+mar 9202
+vak 9193
+uga 9182
+r_a 9181
+gūn 9179
+vus 9171
+atl 9171
+elb 9153
+rda 9147
+zij 9123
+užs 9112
+į_v 9094
+rup 9082
+roj 9043
+ems 9041
+kis 9016
+šta 8987
+muo 8960
+udi 8915
+lat 8903
+lėj 8902
+ute 8892
+ote 8883
+ą_a 8855
+rak 8834
+ą_v 8823
+ėne 8784
+iks 8762
+nyb 8762
+pil 8709
+r_d 8697
+ske 8691
+arn 8676
+ult 8649
+tol 8648
+ymo 8646
+žai 8632
+nkl 8601
+iui 8557
+fin 8546
+u_t 8539
+u_a 8508
+ido 8505
+kli 8473
+sid 8470
+ntu 8469
+kyt 8465
+sni 8462
+kil 8451
+ldy 8426
+rės 8421
+gar 8403
+ė_v 8374
+lam 8356
+ėli 8344
+gau 8327
+rac 8301
+rėj 8293
+sme 8293
+sen 8274
+mui 8272
+sas 8272
+iza 8269
+ojų 8250
+les 8233
+a_l 8227
+aiš 8217
+ryb 8199
+esa 8186
+ūro 8184
+ega 8181
+kat 8166
+egi 8165
+ė_a 8149
+sla 8142
+mot 8130
+usy 8121
+eit 8115
+inį 8108
+air 8102
+tit 8093
+ole 8084
+lyv 8084
+jie 8068
+lek 8047
+suo 8046
+spo 8030
+bas 8030
+ukt 8023
+ula 8016
+ūti 8008
+del 8003
+enc 7995
+kšt 7982
+arė 7972
+mės 7972
+emp 7971
+los 7970
+dom 7933
+bia 7927
+van 7922
+enė 7913
+ško 7910
+run 7906
+iku 7895
+u_b 7892
+yni 7887
+sku 7881
+žsi 7880
+šių 7877
+iav 7872
+mes 7847
+lyj 7841
+pus 7826
+uva 7823
+ton 7813
+rny 7813
+sve 7811
+ašt 7803
+siū 7797
+ivi 7797
+tek 7796
+myb 7781
+alų 7767
+omp 7745
+į_a 7742
+emi 7739
+med 7732
+e_r 7726
+ė_k 7715
+škė 7710
+ont 7709
+sul 7683
+lėt 7675
+ą_d 7675
+ėse 7655
+suk 7651
+tym 7643
+eda 7620
+ire 7614
+įvy 7610
+dėt 7605
+tap 7602
+vau 7601
+sči 7598
+oms 7597
+iūl 7587
+u_i 7575
+yto 7565
+žiu 7563
+išs 7562
+org 7543
+šči 7533
+mėj 7529
+ars 7528
+šiu 7516
+pel 7513
+gre 7512
+aur 7494
+ešt 7478
+izi 7458
+agr 7457
+idu 7453
+sva 7443
+ą_b 7431
+tyv 7431
+a_g 7422
+irb 7416
+e_g 7411
+sur 7410
+rba 7401
+gum 7396
+ė_n 7383
+sos 7381
+ų_į 7378
+e_l 7378
+urn 7372
+vič 7370
+nkų 7367
+ksl 7365
+ler 7364
+ėtų 7359
+u_v 7355
+syb 7347
+aki 7340
+kij 7339
+kėj 7334
+oks 7327
+lab 7291
+rys 7280
+gij 7272
+ašk 7259
+pio 7258
+ism 7250
+oka 7236
+ves 7209
+o_ž 7205
+igė 7199
+bri 7191
+iad 7190
+o_e 7180
+juo 7175
+r_m 7171
+ipa 7170
+stų 7157
+ons 7153
+klo 7148
+ovi 7126
+nut 7117
+puo 7111
+šeš 7107
+o_u 7105
+etr 7100
+vok 7097
+oju 7077
+via 7064
+imė 7056
+e_m 7052
+tyr 7050
+ete 7022
+sum 7021
+ogi 7011
+log 6992
+sud 6968
+r_j 6961
+amu 6953
+bet 6952
+rbi 6951
+pta 6947
+urt 6937
+ure 6934
+žei 6930
+tys 6930
+gus 6903
+šve 6891
+ens 6889
+ąją 6882
+žem 6863
+įmo 6858
+sar 6852
+abi 6849
+gty 6849
+inf 6844
+eži 6830
+taš 6818
+šti 6811
+aru 6808
+s_o 6785
+rtą 6773
+ą_n 6766
+uvi 6754
+ė_i 6750
+į_i 6749
+mil 6747
+odė 6745
+rėt 6727
+yba 6726
+aėj 6725
+raė 6716
+reg 6715
+dym 6713
+eln 6712
+ujo 6681
+s_y 6680
+a_m 6679
+vių 6670
+age 6668
+rep 6661
+rdu 6660
+ilo 6634
+uod 6619
+viz 6616
+sko 6610
+eka 6603
+ėmi 6584
+koj 6572
+yks 6556
+neb 6554
+ake 6552
+į_l 6545
+oci 6520
+dyb 6500
+ų_š 6478
+nst 6474
+t_p 6463
+bol 6459
+bra 6457
+lub 6451
+oro 6450
+čem 6442
+aja 6440
+doj 6440
+lyd 6430
+rol 6428
+pab 6428
+lig 6426
+bėj 6382
+a_į 6372
+amų 6369
+amb 6363
+į_t 6362
+ykl 6362
+r_l 6362
+asm 6334
+yvi 6333
+į_n 6333
+ktu 6322
+iga 6321
+anc 6317
+niz 6308
+nks 6306
+s_c 6296
+fer 6289
+pti 6277
+yko 6276
+ą_t 6271
+ser 6268
+nde 6267
+ė_d 6263
+ola 6261
+kor 6250
+ė_t 6220
+sąj 6208
+ret 6200
+lbė 6194
+tli 6188
+oku 6185
+ąju 6179
+ntų 6173
+u_m 6128
+ema 6118
+sli 6111
+ipė 6106
+ugu 6100
+mac 6082
+sig 6070
+uki 6049
+nfo 6033
+atr 6028
+iso 6025
+pap 6023
+šau 6010
+u_d 5991
+r_b 5990
+iju 5987
+ogr 5984
+rob 5981
+num 5979
+paj 5978
+iru 5977
+raj 5965
+u_j 5961
+ajo 5956
+ora 5950
+tes 5948
+oda 5935
+išv 5935
+upė 5932
+vėl 5928
+soc 5926
+amą 5923
+lgi 5917
+o_f 5917
+a_r 5913
+uno 5913
+ael 5903
+rae 5898
+kiu 5895
+moj 5894
+jek 5873
+sil 5873
+ėsi 5863
+isu 5862
+ų_e 5862
+i_ž 5858
+rst 5853
+uje 5851
+įta 5848
+goj 5845
+ruk 5842
+mti 5839
+imy 5787
+ukš 5781
+sky 5777
+neg 5770
+noj 5746
+apt 5736
+dab 5732
+vij 5718
+enų 5714
+mir 5710
+iuj 5710
+uzi 5708
+nty 5706
+kyb 5693
+isk 5683
+gel 5680
+lon 5678
+mpa 5668
+e_į 5664
+ė_j 5659
+mia 5653
+l_k 5650
+apo 5643
+riv 5634
+ašy 5614
+rbu 5611
+kty 5602
+ond 5597
+enu 5595
+ope 5587
+ila 5585
+kei 5578
+tėj 5562
+lav 5552
+rbo 5547
+šie 5530
+nkė 5517
+iky 5504
+tet 5500
diff --git a/tika-core/src/main/resources/org/apache/tika/language/nl.ngp b/tika-core/src/main/resources/org/apache/tika/language/nl.ngp
new file mode 100644
index 0000000000..7d10c7b5bd
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/nl.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+en_ 224429
+de_ 112710
+_de 109806
+an_ 70218
+et_ 69985
+_he 61754
+_va 52542
+van 52050
+er_ 48056
+ing 42549
+het 41683
+ver 40916
+oor 40483
+_in 37934
+at_ 35969
+_be 35875
+een 35631
+ie_ 35579
+_ge 35577
+_da 35422
+_vo 33870
+_en 33361
+gen 33291
+ten 31913
+nde 30738
+ng_ 30393
+aar 29998
+den 29952
+voo 29229
+_ve 28528
+_ee 28490
+men 28180
+in_ 27376
+te_ 27265
+dat 26734
+_te 26081
+ste 25332
+_di 24146
+_me 23484
+aan 22945
+der 22495
+ijk 22042
+lij 21706
+cht 20751
+ter 20595
+or_ 20528
+is_ 20333
+and 20223
+ij_ 20086
+_op 20049
+ijn 19588
+_we 19127
+ere 18987
+_on 18954
+eli 18952
+tie 18790
+ord 18668
+nie 18634
+eer 18591
+sch 18441
+_zi 18090
+rde 17912
+_is 17281
+_wi 17078
+_co 16956
+ers 16856
+nge 16637
+_aa 16324
+die 16194
+ren 16025
+ar_ 15980
+lle 15979
+_al 15922
+ent 15769
+op_ 15741
+it_ 15486
+ken 15329
+_mo 15263
+ele 14932
+el_ 14901
+len 14892
+_st 14746
+jn_ 14701
+ik_ 14152
+zij 14141
+ens 13788
+_ni 13770
+eid 13612
+wij 13390
+_ma 13380
+_ik 13362
+_wa 13306
+uit 13297
+_mi 13000
+ove 12952
+end 12873
+eme 12865
+ond 12826
+eur 12710
+hee 12652
+_wo 12630
+iet 12513
+le_ 12397
+ze_ 12218
+al_ 12165
+wor 12126
+_zo 12007
+lan 11995
+ede 11994
+_to 11904
+sta 11799
+gel 11682
+_re 11597
+ege 11582
+erd 11384
+nt_ 11380
+nen 11376
+tel 11375
+met 11232
+jk_ 10989
+mis 10918
+moe 10881
+om_ 10615
+iss 10582
+ati 10561
+_om 10511
+_eu 10493
+oet 10486
+com 10371
+est 10264
+_ov 10196
+erk 10156
+ns_ 10114
+rop 10039
+maa 10038
+_er 10035
+eze 9879
+mmi 9872
+ete 9815
+aat 9801
+omm 9800
+del 9754
+ls_ 9724
+id_ 9629
+ke_ 9603
+uro 9565
+_oo 9464
+eri 9420
+_na 9390
+ang 9264
+nd_ 9250
+_ui 9240
+eve 9215
+ssi 9180
+ven 9150
+ech 9130
+nte 9041
+rin 9016
+ope 8992
+es_ 8931
+als 8917
+rij 8862
+dit 8793
+_do 8752
+sie 8741
+se_ 8735
+wer 8723
+pro 8618
+eel 8515
+ich 8407
+ige 8401
+st_ 8331
+_pr 8283
+hte 8203
+_bi 8192
+lin 8186
+ag_ 8042
+gev 7973
+eke 7934
+nne 7920
+daa 7904
+waa 7870
+ite 7722
+raa 7712
+ok_ 7691
+ame 7668
+ook 7661
+ben 7614
+hei 7604
+ien 7595
+mij 7578
+ft_ 7548
+bes 7521
+bel 7502
+_ze 7478
+tre 7475
+eld 7371
+eft 7364
+mee 7320
+re_ 7316
+_la 7300
+tte 7285
+rd_ 7266
+dig 7262
+we_ 7212
+dez 7155
+bij 7138
+jke 7082
+con 7071
+heb 6911
+ind 6852
+_pa 6821
+_no 6751
+ate 6670
+sen 6610
+che 6605
+kel 6566
+rst 6528
+ge_ 6513
+ht_ 6338
+_ho 6282
+isc 6230
+eef 6223
+lem 6174
+toe 6172
+par 6167
+all 6154
+str 6128
+ont 6123
+gro 6114
+min 6109
+ant 6097
+vol 6094
+kom 6084
+dt_ 6024
+bet 5999
+ger 5903
+ese 5899
+rec 5891
+ier 5839
+reg 5817
+_gr 5785
+_ka 5742
+_li 5692
+ot_ 5691
+ale 5617
+taa 5610
+_ha 5604
+geb 5599
+kt_ 5598
+rle 5585
+rs_ 5580
+_vr 5551
+ome 5549
+ijd 5548
+ach 5535
+rge 5523
+ld_ 5517
+rzi 5503
+ell 5495
+wil 5490
+bbe 5457
+kke 5296
+ebb 5281
+doo 5274
+nst 5243
+ig_ 5220
+ela 5164
+kin 5164
+ges 5161
+pes 5133
+orz 5122
+dan 5089
+ard 5085
+ch_ 5073
+pen 5014
+ake 5000
+tot 4977
+aal 4946
+eni 4930
+sti 4886
+iti 4829
+ons 4787
+lei 4783
+cha 4771
+zit 4722
+itt 4693
+ene 4682
+ouw 4679
+ngs 4677
+oed 4626
+_ko 4619
+arl 4600
+_af 4594
+sla 4592
+nhe 4581
+doe 4538
+han 4523
+kan 4523
+age 4448
+leg 4444
+_za 4414
+erv 4402
+wel 4400
+_ra 4387
+kun 4387
+voe 4381
+_ku 4370
+ids 4368
+ari 4345
+oud 4344
+ort 4327
+_hi 4304
+nse 4262
+naa 4248
+tin 4231
+erg 4227
+rdt 4222
+gin 4219
+_ec 4205
+eit 4204
+uni 4192
+ree 4190
+ide 4180
+teg 4144
+_an 4134
+ieu 4124
+etr 4121
+cti 4099
+din 4098
+ntw 4093
+unn 4083
+org 4067
+ies 4060
+uw_ 4057
+og_ 4036
+evo 4028
+ern 4027
+spr 4021
+rek 4006
+aag 4002
+her 3997
+he_ 3982
+sse 3959
+orm 3933
+lee 3916
+gem 3906
+lag 3903
+_un 3887
+gaa 3851
+laa 3850
+hie 3844
+tij 3832
+_le 3819
+_du 3812
+rag 3812
+nin 3806
+enk 3799
+ran 3799
+of_ 3792
+ert 3776
+ied 3767
+oge 3766
+tat 3752
+ins 3749
+ad_ 3737
+oen 3717
+wee 3710
+wat 3684
+gee 3653
+ill 3644
+ili 3634
+_hu 3597
+nze 3578
+art 3576
+zic 3573
+nti 3564
+zou 3547
+ist 3543
+oer 3524
+_ga 3511
+zie 3509
+uwe 3491
+erh 3479
+era 3463
+egi 3457
+_of 3454
+_u_ 3452
+ats 3446
+tei 3444
+il_ 3426
+chi 3419
+tro 3418
+rt_ 3413
+gd_ 3396
+int 3394
+vin 3393
+tra 3390
+ude 3384
+mer 3370
+hap 3353
+nom 3351
+aad 3348
+ade 3345
+_vi 3339
+nat 3330
+ion 3318
+nog 3316
+erl 3312
+ndi 3292
+per 3289
+aak 3281
+ect 3276
+woo 3275
+edi 3274
+eno 3274
+iek 3274
+rei 3270
+un_ 3266
+_so 3261
+hou 3260
+gez 3243
+ron 3241
+erm 3230
+ed_ 3226
+ker 3223
+jnh 3219
+ali 3196
+nem 3195
+pla 3194
+nis 3187
+ees 3181
+ts_ 3178
+erw 3177
+teu 3168
+_pl 3165
+lit 3150
+vor 3150
+rsc 3147
+dra 3139
+erb 3123
+me_ 3123
+gra 3116
+_go 3114
+lge 3112
+app 3110
+vra 3109
+rou 3107
+esc 3104
+rke 3098
+res 3097
+aro 3095
+_po 3093
+lid 3080
+ek_ 3074
+act 3070
+ast 3069
+ris 3057
+tee 3055
+tan 3050
+ona 3040
+dst 3028
+zal 3012
+rac 3005
+ber 3001
+lli 2984
+_sp 2974
+eva 2968
+tig 2960
+goe 2958
+_sc 2950
+beg 2943
+rdi 2942
+rot 2935
+uur 2935
+ors 2921
+onz 2920
+oek 2902
+els 2895
+rsl 2890
+erz 2872
+_bu 2867
+nke 2867
+rte 2860
+gri 2854
+ric 2850
+tge 2834
+dee 2831
+ou_ 2821
+uid 2818
+ee_ 2792
+bie 2791
+rme 2788
+rat 2785
+lie 2775
+are 2770
+pre 2762
+dem 2761
+ijz 2745
+tem 2742
+euw 2737
+mst 2737
+tio 2735
+rui 2728
+ure 2720
+olg 2712
+oel 2704
+vaa 2700
+unt 2698
+bre 2697
+oms 2697
+ank 2693
+ote 2693
+rki 2681
+_ja 2680
+nda 2673
+rmi 2653
+twi 2653
+zon 2645
+ikk 2640
+tal 2637
+_nu 2636
+nal 2635
+_ne 2626
+ak_ 2622
+ema 2611
+ein 2603
+oeg 2589
+val 2577
+ne_ 2576
+red 2575
+rom 2573
+rbe 2567
+ero 2565
+hoo 2559
+twe 2556
+_am 2553
+mog 2550
+vro 2549
+zel 2548
+lde 2541
+dde 2527
+bli 2525
+lis 2524
+_s_ 2522
+_zu 2514
+omi 2514
+zen 2497
+rvo 2491
+_ac 2485
+_ri 2484
+vee 2476
+ans 2468
+gge 2457
+ged 2451
+eed 2448
+elf 2435
+bev 2427
+nam 2424
+ebr 2419
+idi 2416
+ur_ 2399
+tst 2377
+sel 2372
+_ei 2368
+nu_ 2364
+wet 2360
+ezi 2351
+rli 2347
+ini 2343
+oli 2342
+mil 2337
+esl 2332
+ina 2325
+hoe 2319
+lat 2314
+gew 2312
+ds_ 2306
+zeg 2302
+inn 2300
+igd 2291
+eco 2283
+lig 2278
+oe_ 2278
+beh 2274
+ffe 2274
+pun 2265
+haa 2256
+roe 2255
+ega 2250
+sin 2246
+egr 2244
+oll 2238
+rkt 2231
+spe 2220
+ngr 2218
+ner 2215
+zak 2214
+eng 2207
+epa 2205
+nds 2204
+_sa 2188
+mid 2183
+nta 2176
+idd 2175
+enw 2169
+eun 2168
+evr 2168
+rne 2168
+bed 2166
+elk 2164
+wen 2163
+enl 2157
+eem 2156
+tis 2154
+lic 2151
+ull 2144
+wik 2140
+ssa 2138
+egg 2136
+zo_ 2128
+erp 2119
+ref 2119
+ppe 2115
+uss 2104
+em_ 2102
+nsc 2102
+one 2099
+bur 2097
+ani 2095
+fin 2095
+ntr 2094
+rti 2094
+us_ 2092
+_tw 2084
+dui 2081
+hun 2080
+_pe 2075
+rie 2066
+nee 2061
+pel 2052
+_bl 2048
+gan 2048
+tuu 2046
+egd 2045
+sam 2043
+_br 2041
+_tu 2035
+ser 2035
+igh 2027
+lev 2027
+gt_ 2024
+its 2024
+ono 2022
+ijv 2017
+akt 2016
+rob 2013
+pee 2010
+ghe 2004
+_ba 1999
+nci 1996
+opa 1993
+_ti 1990
+zul 1988
+ewe 1980
+_bo 1979
+cia 1972
+iev 1972
+rga 1970
+tor 1966
+nig 1957
+rva 1956
+rhe 1950
+tri 1945
+jd_ 1942
+uct 1939
+bep 1938
+hed 1938
+man 1938
+pa_ 1928
+ral 1923
+fen 1921
+ble 1917
+mat 1910
+ial 1908
+fra 1906
+lui 1904
+enh 1902
+as_ 1898
+oal 1896
+mak 1887
+ebi 1879
+por 1877
+_kr 1876
+ost 1875
+zoa 1871
+led 1866
+rit 1864
+jaa 1861
+air 1858
+_fr 1857
+ett 1847
+mme 1842
+ise 1838
+dus 1830
+pol 1823
+tek 1819
+roo 1818
+eff 1813
+_ar 1808
+cte 1808
+ijf 1808
+_tr 1801
+hel 1797
+khe 1789
+_ie 1778
+ekk 1778
+geh 1778
+ire 1778
+ram 1773
+itg 1772
+urg 1770
+ann 1763
+_kw 1761
+zet 1757
+jkh 1756
+eko 1755
+_sl 1749
+anc 1749
+dri 1749
+_dr 1737
+epe 1737
+hti 1737
+mar 1735
+nan 1719
+ori 1719
+nwe 1712
+ap_ 1710
+ma_ 1697
+obl 1696
+edr 1692
+sit 1692
+mev 1685
+ong 1685
+_el 1681
+oep 1678
+evi 1669
+oci 1664
+soc 1662
+pri 1661
+baa 1654
+esp 1653
+rak 1645
+_fi 1643
+tai 1643
+emm 1640
+ef_ 1632
+col 1629
+eil 1627
+ief 1625
+rod 1625
+eig 1621
+afg 1620
+zor 1619
+eho 1618
+hts 1614
+eg_ 1613
+bru 1612
+tus 1602
+ike 1599
+eds 1596
+on_ 1592
+oog 1591
+zoe 1589
+gde 1587
+gek 1584
+nli 1583
+two 1583
+roc 1579
+onc 1574
+zee 1574
+oce 1567
+loo 1566
+jde 1564
+ust 1560
+bin 1559
+tru 1559
+ve_ 1559
+_ke 1552
+ume 1552
+_ev 1546
+fge 1537
+ena 1536
+slu 1535
+ler 1534
+mt_ 1532
+zaa 1532
+rre 1529
+kri 1522
+weg 1520
+vri 1519
+pra 1518
+odi 1517
+ara 1514
+rzo 1510
+zin 1506
+ban 1505
+rwe 1505
+noo 1503
+pas 1502
+rol 1491
+sol 1487
+nk_ 1485
+eb_ 1484
+kki 1479
+ore 1479
+lt_ 1475
+noe 1473
+amm 1466
+ogr 1466
+_ju 1456
+arm 1456
+dse 1456
+rel 1454
+stu 1452
+wan 1452
+eu_ 1450
+cho 1445
+ark 1444
+_pu 1441
+nko 1438
+na_ 1433
+arb 1430
+eba 1428
+rdr 1426
+omd 1425
+mel 1424
+uis 1421
+pec 1419
+ode 1409
+bee 1407
+_ro 1406
+ass 1405
+bou 1404
+uik 1403
+duc 1400
+for 1397
+sar 1397
+och 1396
+_se 1394
+mda 1394
+ets 1391
+rbi 1391
+olk 1390
+_si 1385
+emo 1379
+ult 1376
+aut 1375
+deb 1375
+hij 1375
+orb 1374
+rog 1372
+rok 1372
+had 1371
+lot 1365
+atr 1358
+lke 1355
+opg 1355
+odu 1354
+elo 1352
+emi 1345
+enr 1345
+rig 1342
+rna 1342
+tli 1340
+itu 1334
+ijs 1332
+jze 1330
+jve 1328
+htl 1327
+ood 1326
+nel 1321
+pge 1317
+je_ 1313
+med 1312
+slo 1312
+uti 1310
+_ta 1309
+_fe 1308
+rha 1307
+ine 1306
+ijg 1302
+ële 1301
+cen 1291
+ije 1290
+eda 1281
+geg 1281
+err 1274
+ald 1271
+oei 1271
+mma 1267
+paa 1267
+_lo 1264
+gst 1264
+kte 1258
+gio 1255
+oti 1255
+iël 1252
+gie 1251
+rma 1251
+was 1251
+inz 1243
+_or 1240
+ehe 1236
+spa 1235
+get 1230
+cië 1229
+ves 1228
+chr 1225
+rap 1223
+igi 1222
+nit 1220
+fer 1214
+vas 1214
+elt 1213
+ga_ 1208
+alt 1205
+dhe 1205
+bat 1197
+ct_ 1197
+dur 1195
+zig 1191
+olu 1187
+zek 1186
+hil 1180
+sbe 1179
+_ki 1178
+atu 1173
+oop 1172
+sto 1172
+tur 1170
+eha 1164
+nod 1160
+bar 1159
+dru 1159
+ita 1159
+arv 1157
+dis 1156
+log 1156
+uat 1156
+eta 1155
+net 1155
+rik 1154
+ebe 1153
+oon 1153
+af_ 1149
+nni 1147
+_kl 1145
+hul 1144
+ole 1144
+ora 1144
+akk 1143
+oot 1141
+ple 1132
+ruc 1132
+sme 1128
+ekt 1122
+_im 1118
+ive 1113
+kwe 1111
+rk_ 1111
+nre 1105
+lst 1097
+har 1084
+sle 1083
+dag 1081
+uch 1075
+wes 1065
+ruk 1062
+los 1059
+lf_ 1055
+nad 1055
+rea 1054
+uk_ 1054
+oos 1052
+etg 1051
+emd 1048
+cra 1046
+tse 1044
+nsp 1043
+ppo 1043
+hui 1041
+ane 1040
+att 1037
+keu 1024
+ezo 1023
+bui 1017
+nau 1017
+eru 1016
+edu 1012
diff --git a/tika-core/src/main/resources/org/apache/tika/language/no.ngp b/tika-core/src/main/resources/org/apache/tika/language/no.ngp
new file mode 100644
index 0000000000..ba610ce16f
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/no.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+er_ 43153
+en_ 26541
+et_ 22335
+for 18182
+_de 18107
+ing 16986
+_fo 15665
+_og 15184
+og_ 14311
+or_ 13145
+_i_ 12591
+re_ 11699
+_av 10970
+om_ 10970
+til 10716
+_ti 10674
+ter 10662
+ne_ 10351
+det 9655
+av_ 9596
+_me 9565
+ng_ 9493
+ene 8925
+de_ 8847
+il_ 8724
+te_ 8327
+ere 8267
+_en 8175
+_er 7956
+som 7882
+ed_ 7804
+_so 7659
+tte 7622
+lle 7592
+nge 7533
+der 7421
+ver 7272
+ler 6963
+_in 6894
+ke_ 6881
+ett 6857
+_st 6628
+es_ 6510
+ste 6404
+and 6285
+ell 6190
+_vi 6176
+_ve 6113
+lig 6085
+nde 6053
+_ha 6049
+nin 6036
+med 5943
+_be 5895
+ten 5874
+sjo 5852
+_på 5831
+jon 5831
+_re 5779
+ser 5764
+ar_ 5720
+den 5611
+ent 5599
+rin 5552
+_ut 5489
+gen 5480
+ens 5436
+_ko 5418
+_tr 5412
+på_ 5401
+le_ 5344
+kon 5309
+tor 5211
+ner 5099
+sen 5019
+_å_ 4951
+ge_ 4931
+_an 4919
+kke 4899
+_no 4850
+rt_ 4814
+ig_ 4722
+at_ 4631
+ikk 4619
+_sk 4597
+ger 4583
+nne 4581
+men 4497
+ren 4476
+_fr 4454
+_pr 4445
+_se 4403
+ker 4361
+ers 4338
+an_ 4325
+_at 4202
+inn 4129
+del 4113
+eri 4102
+_om 4077
+tt_ 4043
+end 4009
+res 3920
+ekt 3912
+tet 3821
+lin 3813
+_et 3808
+ngs 3755
+els 3750
+ont 3750
+_ka 3746
+nte 3718
+se_ 3696
+per 3670
+har 3662
+isk 3647
+opp 3632
+one 3612
+_sa 3572
+est 3571
+ans 3533
+dre 3517
+enn 3503
+ert 3467
+pro 3462
+dek 3353
+tra 3330
+ove 3286
+het 3263
+ang 3256
+_op 3255
+mme 3233
+tal 3214
+nen 3209
+_ma 3204
+try 3197
+gde 3175
+ret 3165
+ska 3161
+ord 3142
+ske 3131
+lse 3129
+jen 3126
+str 3104
+nor 3085
+all 3077
+lan 3029
+asj 3017
+on_ 3014
+eko 2981
+al_ 2969
+ryg 2961
+nto 2940
+rer 2938
+_el 2930
+ygd 2925
+ort 2880
+_pe 2879
+kan 2879
+ige 2858
+fra 2842
+var 2842
+_gj 2808
+ate 2797
+ran 2794
+sam 2765
+mer 2763
+år_ 2762
+ide 2760
+len 2753
+_si 2749
+ern 2744
+ll_ 2725
+sse 2718
+st_ 2712
+ors 2710
+sta 2696
+gje 2663
+kom 2656
+ra_ 2627
+ise 2618
+_bl 2595
+net 2593
+ved 2568
+_la 2564
+att 2543
+kti 2531
+_al 2529
+tiv 2528
+ale 2521
+_ba 2520
+eli 2514
+vil 2498
+_he 2482
+_mi 2479
+_ik 2475
+are 2466
+kt_ 2466
+sk_ 2455
+kal 2448
+lde 2442
+el_ 2429
+nse 2420
+bru 2415
+nd_ 2410
+old 2386
+ruk 2384
+ist 2375
+lt_ 2353
+ore 2345
+_gr 2343
+lik 2336
+_br 2335
+ete 2327
+ndr 2321
+_ar 2313
+_va 2307
+ns_ 2303
+ite 2297
+tre 2289
+_hv 2281
+øre 2236
+_ov 2226
+ien 2224
+eve 2216
+sti 2214
+sto 2214
+omm 2212
+hol 2210
+rte 2209
+nes 2202
+ons 2186
+vei 2184
+sli 2172
+kte 2160
+_li 2155
+unn 2155
+_fi 2136
+por 2132
+nn_ 2116
+elt 2092
+ive 2087
+rbe 2087
+ill 2083
+eng 2072
+pen 2070
+før 2068
+org 2055
+eks 2051
+ele 2050
+man 2044
+rke 2042
+_di 2021
+ven 2015
+rsk 2009
+bar 2005
+sik 1996
+eid 1994
+arb 1983
+tat 1982
+und 1982
+_le 1973
+ann 1955
+reg 1954
+ede 1946
+tid 1945
+nt_ 1943
+_ta 1937
+_to 1936
+ier 1929
+bei 1921
+vær 1921
+_sp 1918
+erk 1905
+sel 1902
+art 1901
+tur 1886
+sni 1884
+vis 1871
+sko 1860
+red 1858
+_da 1856
+set 1838
+ære 1837
+kje 1836
+rne 1827
+_fa 1818
+rso 1807
+så_ 1796
+ant 1793
+gra 1790
+_un 1786
+_må 1782
+itt 1779
+ess 1776
+leg 1776
+son 1768
+akt 1766
+nom 1762
+_ak 1761
+_ku 1757
+uts 1755
+dri 1737
+kel 1737
+ikt 1728
+lag 1727
+ati 1723
+_bi 1722
+gru 1708
+orm 1707
+ram 1686
+kni 1685
+eld 1681
+ass 1669
+nta 1669
+eie 1668
+gan 1661
+_fø 1659
+rel 1655
+_mo 1647
+jør 1640
+_kr 1639
+lit 1637
+ake 1634
+amm 1621
+kol 1610
+_år 1606
+_te 1605
+tak 1590
+vik 1581
+tem 1580
+dig 1577
+_os 1574
+bli 1574
+han 1573
+ind 1568
+_væ 1566
+alt 1552
+tig 1552
+bil 1551
+ken 1551
+rek 1551
+ble 1542
+ift 1540
+ffe 1537
+pla 1537
+igh 1530
+spo 1523
+egg 1519
+mil 1506
+nsk 1505
+_ne 1504
+slo 1495
+_sy 1493
+ør_ 1491
+_ga 1477
+let 1476
+rde 1469
+rog 1464
+ghe 1459
+ppe 1453
+rge 1446
+gge 1445
+nst 1433
+min 1419
+ld_ 1413
+eme 1403
+eta 1400
+osl 1396
+is_ 1391
+ole 1391
+åde 1391
+kap 1390
+ag_ 1380
+dis 1376
+in_ 1375
+lo_ 1374
+ike 1371
+die 1369
+ntr 1366
+ali 1360
+ros 1356
+dle 1347
+jer 1336
+sin 1329
+nno 1326
+tan 1326
+las 1314
+age 1310
+eg_ 1310
+irk 1306
+lta 1292
+ogs 1282
+id_ 1281
+_sl 1279
+ir_ 1276
+uli 1274
+nal 1267
+met 1264
+erd 1263
+ids 1260
+vir 1258
+gså 1257
+jel 1256
+_po 1255
+_ek 1253
+ine 1248
+ets 1246
+_ho 1242
+oms 1240
+uke 1236
+_gi 1235
+spe 1235
+mel 1234
+bes 1227
+tel 1222
+mun 1221
+tes 1218
+vek 1216
+ilj 1214
+ytt 1210
+sat 1208
+ode 1203
+råd 1203
+rve 1201
+_fe 1200
+rst 1199
+bet 1197
+van 1186
+_of 1182
+par 1182
+tek 1182
+hel 1181
+ve_ 1180
+kk_ 1177
+les 1177
+_fl 1173
+kun 1172
+ljø 1172
+ark 1170
+hen 1169
+_kj 1165
+nsp 1165
+int 1161
+_na 1152
+mar 1152
+nis 1149
+mmu 1143
+arn 1142
+kri 1141
+run 1139
+ipp 1136
+vi_ 1134
+ket 1129
+ese 1128
+ost 1128
+era 1127
+ins 1127
+orb 1126
+ion 1125
+ta_ 1123
+pri 1121
+ris 1116
+_by 1113
+mid 1113
+_th 1107
+_lo 1106
+nfo 1104
+use 1104
+_ny 1103
+ves 1099
+dli 1096
+fer 1095
+ndi 1095
+tin 1088
+fte 1087
+me_ 1085
+_pa 1081
+erg 1079
+gre 1077
+ure 1076
+sva 1075
+the 1074
+lev 1070
+mis 1069
+rli 1067
+rat 1060
+tsl 1059
+ast 1056
+nsj 1051
+ege 1050
+ber 1048
+pp_ 1048
+_øk 1046
+gis 1045
+tvi 1043
+idl 1038
+ss_ 1035
+lke 1033
+utv 1033
+mas 1032
+val 1030
+kre 1028
+rdi 1028
+lis 1026
+rif 1021
+_mu 1017
+bel 1016
+gne 1011
+egi 1008
+lip 1007
+tis 1006
+nke 1004
+nns 1003
+vor 1001
+seg 999
+kli 998
+ilt 993
+rma 992
+_hø 990
+dus 990
+ksj 985
+riv 985
+ult 982
+nat 981
+ski 981
+pre 979
+off 978
+rie 978
+nær 976
+oll 974
+dag 972
+erv 967
+skr 967
+tro 965
+_dr 964
+skj 963
+ata 961
+ute 960
+atu 959
+stu 959
+tni 956
+rem 955
+sit 955
+rn_ 953
+_pl 949
+ogr 949
+sys 947
+vel 946
+kes 944
+fre 943
+fis 941
+mot 941
+tab 941
+øke 940
+_co 938
+gjø 938
+yst 935
+ikl 934
+jem 934
+mål 932
+_ra 931
+raf 931
+vet 930
+må_ 929
+ndl 929
+ak_ 922
+orh 922
+ivi 921
+iti 920
+rod 919
+_ul 916
+lte 915
+nsi 913
+get 912
+lys 912
+odu 912
+sis 912
+kse 911
+lek 911
+eis 910
+lov 910
+_eu 908
+erf 908
+ekn 906
+beh 904
+ted 904
+sve 903
+hvo 901
+une 898
+lom 896
+sje 896
+_få 895
+ekk 895
+dan 892
+ire 887
+mpe 886
+rei 886
+ur_ 885
+duk 883
+ika 882
+ts_ 878
+_nå 876
+rs_ 875
+lge 874
+lli 874
+dni 870
+_kl 869
+us_ 868
+tri 867
+gat 866
+nyt 865
+rme 865
+far 864
+ile 862
+stø 860
+omr 858
+elv 857
+_or 856
+rk_ 856
+enk 853
+ft_ 853
+llo 852
+ial 849
+iss 849
+mat 848
+he_ 843
+rre 842
+uk_ 842
+_så 839
+led 839
+upp 838
+mul 837
+fin 836
+gel 834
+lem 834
+ane 831
+ldr 831
+kra 828
+ori 828
+gi_ 827
+ils 827
+ave 826
+tje 826
+edu 824
+dat 822
+ull 821
+esi 820
+ad_ 818
+des 818
+ses 817
+app 815
+_fy 813
+ona 813
+rho 812
+tør 811
+log 809
+ørs 809
+ik_ 807
+mrå 807
+oli 805
+dde 804
+em_ 803
+_a_ 800
+fle 800
+emp 799
+ade 796
+rup 796
+byg 794
+edr 794
+ose 794
+fik 793
+ut_ 793
+rti 790
+syn 789
+noe 787
+rks 787
+fol 786
+ye_ 784
+emi 781
+sie 778
+tli 778
+esk 776
+vid 775
+_bo 773
+inf 773
+kst 773
+rit 773
+ned 772
+sid 772
+oru 770
+omf 768
+rhe 768
+syk 766
+tas 766
+rap 765
+lat 764
+søk 764
+to_ 752
+ari 751
+æri 750
+avg 749
+rad 747
+olo 745
+tud 745
+utt 745
+hje 741
+tik 741
+um_ 740
+kjø 736
+orv 736
+uks 736
+høy 735
+_sv 732
+egn 732
+ukt 732
+tar 727
+aks 725
+sem 718
+_go 715
+_lø 715
+kul 714
+eff 713
+gin 713
+hov 713
+ks_ 711
+_bu 710
+as_ 710
+dst 710
+føl 710
+pet 709
+ygg 709
+ei_ 706
+ppl 706
+unk 706
+iv_ 704
+_bø 702
+vin 698
+urs 697
+rse 696
+tyr 695
+ogi 692
+ølg 691
+kin 687
+god 685
+ota 683
+fel 681
+rea 681
+tti 681
+kla 680
+rfo 680
+rds 678
+nli 677
+nit 674
+erh 673
+tse 673
+_næ 672
+pas 672
+når 670
+ppo 668
+ras 667
+dir 663
+dra 663
+ela 661
+_fu 660
+inu 659
+rav 658
+_ef 657
+udi 656
+øye 655
+sor 653
+sre 653
+kso 651
+eha 650
+tof 650
+of_ 649
+vit 649
+dt_ 646
+pos 646
+fek 645
+fyl 643
+nti 642
+tio 642
+gst 641
+gg_ 639
+spr 638
+_sø 637
+bed 637
+bus 637
+ot_ 635
+afi 633
+isj 631
+ssi 631
+tru 631
+rev 629
+aml 627
+nel 626
+fri 625
+ono 625
+gsp 624
+rna 624
+ges 623
+omi 623
+rsi 623
+eho 622
+gt_ 622
+nds 622
+mes 621
+oen 621
+lar 620
+rga 620
+nas 619
+sty 619
+fat 616
+kar 616
+rio 616
+ært 616
+ald 614
+ilb 614
+oks 613
+tøy 612
+pes 611
+ase 610
+nsa 609
+øy_ 608
+olk 607
+løs 606
+stå 606
+sla 605
+fun 603
+tst 599
+ini 598
+rut 598
+_eg 597
+_kn 597
+iel 597
+kto 597
+ben 596
+ssu 595
+egr 592
+hvi 590
+kle 588
+rik 588
+uss 588
+no_ 587
+emm 586
+lir 586
+lie 585
+kil 583
+enh 581
+erl 581
+bas 580
+_ri 579
+_bå 578
+kos 577
+abe 576
+edi 576
+omh 575
+rd_ 575
+tot 575
+mhe 574
+ple 574
+_im 573
+beg 573
+nnt 573
+sur 573
+pol 572
+nsv 571
+nux 571
+rom 569
+ha_ 567
+mst 567
+ild 566
+erm 565
+ral 565
+_kv 564
+hve 564
+_do 563
+_my 562
+ape 561
+rol 561
+mle 559
+ety 558
+itu 555
+ust 554
+rgi 553
+pe_ 550
+rda 550
+her 549
+ykk 549
+vgi 548
+ems 547
+avt 546
+omp 546
+efo 545
+_as 544
+ani 544
+ux_ 543
+utg 541
+gif 537
+gir 537
+je_ 536
+bør 534
+nkt 534
+urd 534
+rep 531
+nni 530
+ara 527
+bok 527
+pel 527
+ksi 523
+spi 522
+vta 522
+nye 521
+bak 520
+rdr 520
+sgr 519
+tyd 519
+am_ 518
+stn 516
+sek 515
+na_ 514
+_ki 513
+få_ 512
+sak 511
+dom 510
+ema 510
+hus 510
+_ge 509
+nnl 509
+_s_ 508
+lel 507
+lær 507
+ltu 506
+yde 506
+_ro 505
+osi 503
+sul 503
+pps 502
+pun 502
+teg 497
+ita 496
+anl 495
+gur 495
+igu 492
+ud_ 492
+yr_ 492
+ifi 491
+rak 491
+rig 491
+_ad 489
+jor 489
+øko 489
+fig 488
+sig 487
+sst 487
+_ww 485
+_x_ 485
+kas 485
+ørt 485
+api 484
+jek 484
+edl 483
+ude 483
+ilk 482
+ål_ 482
+_ty 481
+ikr 478
+bre 477
+nve 475
+kva 474
+ies 473
+lav 473
+ogn 473
+osj 473
+ref 473
+_ca 472
+dep 472
+ein 472
+bud 471
+kor 471
+nkl 471
+vur 469
+bef 468
+fal 468
+sia 468
+mod 467
+nad 467
+tit 467
+_du 466
+igg 466
+asi 463
+sku 463
+_su 462
+amv 462
+nda 462
+_gå 461
+ask 461
+ria 459
+små 459
diff --git a/tika-core/src/main/resources/org/apache/tika/language/pl.ngp b/tika-core/src/main/resources/org/apache/tika/language/pl.ngp
new file mode 100644
index 0000000000..e53db45fae
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/pl.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+ie_ 11047
+nie 10353
+_pr 9159
+_po 8142
+ch_ 7969
+_na 6678
+ani 6213
+_w_ 5759
+ia_ 5718
+ych 5534
+prz 5323
+rze 5307
+owa 5228
+nia 5174
+_za 5071
+na_ 5016
+_do 4773
+_i_ 4470
+wan 4352
+_je 4264
+ej_ 4177
+dzi 4116
+_wy 4045
+eni 4018
+ów_ 3946
+go_ 3882
+sta 3785
+ego 3747
+ne_ 3539
+rzy 3417
+pro 3256
+_ni 3219
+est 3193
+wie 3160
+acj 3088
+_ko 3060
+_z_ 2938
+ści 2922
+nyc 2846
+ji_ 2811
+em_ 2639
+cze 2614
+czn 2608
+_in 2538
+_ro 2529
+_st 2504
+cji 2486
+owe 2455
+st_ 2447
+yst 2416
+ym_ 2412
+ny_ 2389
+do_ 2371
+_si 2319
+_mo 2304
+jes 2270
+ci_ 2190
+owi 2186
+row 2146
+owy 2109
+_te 2077
+kie 2046
+ost 2030
+wa_ 1992
+się 1990
+zie 1988
+ki_ 1968
+ośc 1966
+czy 1938
+zy_ 1938
+_wi 1924
+zen 1921
+_sp 1886
+ien 1866
+ię_ 1859
+kon 1857
+_cz 1850
+ane 1840
+cie 1835
+pra 1834
+any 1832
+je_ 1828
+_od 1803
+jąc 1801
+str 1790
+ier 1787
+_mi 1786
+nik 1786
+pow 1759
+mie 1741
+_ma 1711
+ku_ 1699
+ach 1667
+ać_ 1666
+nic 1649
+ka_ 1639
+pod 1626
+mi_ 1617
+_pa 1614
+dni 1614
+war 1600
+rac 1582
+ste 1545
+tow 1535
+kow 1533
+icz 1523
+ywa 1516
+zys 1509
+_ja 1507
+iej 1486
+ter 1483
+ent 1478
+_to 1472
+ale 1455
+tyc 1431
+gra 1424
+trz 1408
+ami 1401
+zna 1393
+_o_ 1389
+to_ 1388
+_a_ 1384
+_ob 1382
+roz 1366
+tem 1362
+now 1344
+szy 1336
+edn 1332
+moż 1322
+ist 1319
+nej 1315
+cza 1314
+ycz 1297
+_ty 1296
+za_ 1291
+ram 1276
+sze 1265
+ski 1262
+ska 1259
+arz 1256
+_op 1251
+spo 1250
+ora 1248
+iał 1237
+ra_ 1237
+la_ 1231
+neg 1230
+_ws 1229
+wyc 1228
+ze_ 1228
+_re 1223
+noś 1222
+cja 1218
+zan 1218
+wni 1216
+któ 1214
+_ta 1209
+ali 1209
+dow 1200
+rog 1198
+zac 1194
+że_ 1194
+dan 1193
+aln 1189
+orz 1183
+era 1182
+for 1175
+ogr 1166
+_wa 1165
+nym 1163
+jak 1159
+ają 1156
+nal 1154
+awi 1147
+ika 1146
+zyc 1140
+wer 1128
+orm 1126
+_sk 1125
+ja_ 1123
+_sy 1119
+tan 1116
+_kt 1114
+_us 1114
+ść_ 1114
+sto 1112
+stw 1107
+zia 1106
+pie 1105
+ich 1103
+tór 1096
+raz 1094
+iem 1092
+ony 1091
+ez_ 1087
+ce_ 1085
+zas 1073
+wia 1071
+iu_ 1057
+tra 1056
+_dz 1053
+ied 1050
+lik 1050
+rod 1048
+li_ 1047
+raw 1044
+ący 1043
+_se 1042
+twa 1042
+od_ 1039
+ty_ 1037
+tor 1036
+ran 1034
+wy_ 1033
+_tr 1032
+zne 1029
+_or 1028
+ast 1024
+zez 1022
+iec 1021
+kom 1021
+cho 1017
+iel 1016
+akt 1014
+_pl 1013
+poz 1010
+jed 1008
+ał_ 1005
+cy_ 991
+_da 989
+mu_ 987
+we_ 985
+ków 983
+ak_ 982
+by_ 979
+_ba 971
+ją_ 967
+ry_ 963
+az_ 961
+stę 961
+le_ 960
+my_ 959
+ada 954
+rów 953
+zes 953
+ona 952
+tu_ 952
+yjn 951
+_sz 947
+ecz 946
+taw 945
+ość 944
+usz 944
+dy_ 937
+ędz 937
+sty 933
+ko_ 932
+rma 932
+art 931
+ek_ 929
+_dl 927
+ta_ 926
+_ka 923
+ują 922
+wsz 916
+ekt 914
+zcz 912
+szc 910
+_lu 903
+tęp 903
+sys 902
+sie 899
+two 897
+liz 896
+niu 894
+cyj 889
+ion 887
+tni 884
+sow 881
+odz 880
+_by 879
+one 875
+er_ 874
+ini 874
+uje 872
+bra 865
+kac 865
+_no 864
+wym 864
+acz 857
+nac 857
+por 855
+yci 848
+pol 840
+_ok 839
+dla 837
+zon 837
+aty 834
+ące 830
+ust 828
+ana 818
+pli 818
+_co 813
+sza 813
+erw 811
+uży 809
+tak 806
+men 803
+ucz 801
+acy 800
+bie 800
+erz 800
+lic 800
+_ak 798
+ni_ 796
+zed 796
+_fu 794
+pos 794
+mia 791
+wią 790
+tał 788
+yć_ 788
+_li 782
+lub 781
+leż 779
+mat 777
+wyk 774
+tal 761
+fun 757
+ocz 752
+eń_ 749
+inf 747
+zap 740
+_pi 737
+on_ 736
+adz 733
+nio 732
+min 731
+cia 727
+ozw 725
+tów 725
+wej 724
+_ra 722
+ero 721
+oni 721
+tro 721
+dno 720
+ną_ 719
+_ch 718
+ub_ 718
+unk 718
+oda 716
+opr 712
+ład 709
+mow 705
+ży_ 703
+isk 702
+zwi 702
+oso 700
+ies 699
+zaw 699
+own 698
+ktu 697
+omi 696
+_an 694
+zny 694
+_kr 692
+kcj 692
+mac 691
+iza 688
+wać 688
+ech 686
+int 686
+cen 685
+_zn 684
+ała 684
+ła_ 682
+edz 681
+_uż 680
+iąz 679
+nte 679
+świ 677
+_os 676
+_kl 675
+arc 673
+lne 671
+pis 671
+ję_ 667
+ele 665
+ymi 664
+tko 662
+awa 661
+oże 655
+tyw 655
+bez 652
+zni 650
+_be 649
+kre 649
+teg 646
+ako 644
+tar 644
+_uc 643
+esz 643
+ić_ 643
+ano 637
+_sa 636
+aki 636
+kła 636
+rzą 636
+_bi 635
+nas 633
+ian 632
+ser 632
+dos 631
+uch 628
+odu 627
+odn 626
+_fi 625
+omo 624
+ącz 622
+res 621
+ówn 620
+eci 619
+oku 616
+ięc 615
+weg 615
+stn 613
+łąc 613
+wię 612
+nar 610
+pom 609
+_dr 606
+liw 606
+zec 604
+zeg 602
+_że 596
+wor 596
+ieg 594
+naj 592
+kty 591
+yko 591
+eży 590
+ejs 588
+dza 587
+_ab 586
+amo 586
+ząd 586
+tek 585
+_go 584
+ros 584
+ato 583
+stk 582
+tki 582
+ows 581
+osz 580
+słu 580
+nta 579
+_me 578
+aby 577
+ca_ 577
+owo 576
+_są 574
+wo_ 574
+ńst 569
+kor 568
+_we 565
+_ró 564
+_ce 563
+ma_ 563
+tym 563
+zos 563
+roc 562
+_al 561
+nfo 561
+_zo 560
+cje 558
+ers 557
+lny 555
+no_ 555
+bli 554
+ort 554
+ole 553
+_ze 551
+rto 551
+zym 550
+_wł 549
+inn 549
+są_ 548
+_zw 547
+dze 547
+oce 547
+cyc 546
+ły_ 545
+jny 544
+ate 543
+zeń 542
+dar 541
+ron 540
+po_ 539
+czo 538
+und 537
+iad 536
+_dy 534
+_zm 534
+omp 534
+rzę 534
+emu 533
+ont 533
+_r_ 530
+eśl 530
+chn 526
+am_ 525
+kto 525
+spr 524
+_de 522
+tru 522
+kan 521
+rak 520
+_gr 519
+rok 517
+_fo 516
+wys 516
+moc 514
+rz_ 513
+wsk 512
+iow 511
+ono 507
+ard 506
+re_ 504
+ala 503
+wyb 503
+lac 502
+_zb 500
+asz 500
+oko 500
+zęd 499
+ii_ 498
+met 498
+toś 498
+api 496
+sz_ 496
+zar 496
+wad 494
+mis 493
+zak 493
+ańs 491
+nst 489
+ikó 488
+tac 488
+żli 488
+tur 487
+cję 486
+nan 486
+spó 486
+dus 484
+iet 484
+iek 483
+szu 482
+ożl 481
+bud 480
+odo 480
+ual 480
+om_ 479
+óry 479
+ndu 478
+zmi 478
+sam 474
+ara 473
+as_ 471
+or_ 471
+par 471
+ło_ 471
+będ 469
+hod 469
+ik_ 469
+pon 469
+en_ 467
+ins 467
+ado 465
+te_ 465
+ysk 464
+_ki 463
+ryw 463
+wis 463
+ąc_ 463
+_zd 462
+at_ 462
+im_ 462
+lem 462
+odp 462
+_bu 461
+edy 461
+ług 460
+cis 458
+bio 457
+obi 457
+_pe 455
+ięk 455
+pla 455
+ruc 455
+dro 454
+_ul 453
+god 453
+mni 453
+sob 452
+tos 451
+łow 451
+czą 449
+ań_ 448
+kic 448
+kol 448
+yma 448
+_śr 447
+tec 447
+wła 447
+osi 446
+óre 446
+dom 445
+ąza 444
+ans 443
+ata 443
+czę 443
+tua 443
+and 441
+kli 441
+zyn 441
+być 440
+yta 440
+ępn 440
+ior 438
+esi 437
+pły 437
+_wp 435
+gan 435
+_um 434
+nos 434
+wal 434
+lko 433
+zu_ 433
+enc 431
+obr 431
+_ją 429
+oje 429
+oli 429
+tyk 428
+tyl 426
+an_ 425
+koś 425
+dys 424
+ież 424
+żyt 424
+ewn 423
+ęci 423
+mod 421
+red 421
+zer 421
+jne 419
+ząc 419
+aga 418
+wsp 418
+dat 417
+rdz 417
+okr 414
+łów 414
+pot 413
+da_ 412
+eks 412
+ezp 412
+uni 412
+nis 410
+eli 409
+_ry 408
+eto 408
+low 408
+mów 408
+_ap 405
+ars 405
+pop 405
+zow 405
+ern 403
+lec 402
+ces 401
+co_ 400
+_św 399
+dok 399
+_ur 398
+su_ 398
+rob 395
+wod 395
+zej 395
+pół 394
+ura 394
+wid 394
+zyk 394
+_bę 393
+nny 393
+nt_ 393
+sku 393
+oty 392
+ądz 390
+ały 389
+log 389
+ols 389
+sko 389
+śni 389
+cha 388
+hni 388
+_wo 387
+_au 386
+lu_ 385
+ntr 385
+lsk 384
+mon 383
+win 383
+poc 382
+zwa 382
+_gł 381
+lon 381
+opi 381
+zal 380
+dzo 379
+ten 379
+pad 378
+ogi 377
+pań 377
+akc 376
+_tw 375
+ict 374
+lan 374
+ctw 373
+lni 373
+per 373
+_pł 372
+otr 372
+yni 372
+śli 371
+śro 371
+_ci 370
+_gd 370
+rad 370
+zew 370
+był 369
+ute 369
+_e_ 368
+lat 368
+net 367
+du_ 366
+ed_ 366
+gi_ 366
+ałe 365
+es_ 365
+ina 362
+kat 362
+ytk 362
+zbi 362
+rat 361
+szt 360
+cel 358
+cią 357
+dst 357
+ksz 357
+róż 357
+óln 357
+et_ 356
+żna 356
+_s_ 355
+aci 355
+zaj 355
+_ar 354
+in_ 354
+umi 353
+_wz 352
+oma 351
+ożn 351
+bar 350
+zek 349
+zi_ 349
+duk 348
+eko 347
+obo 347
+rus 347
+ga_ 346
+ybr 345
+ywn 344
+ory 343
+try 343
+_mu 342
+_pu 342
+eż_ 342
+ią_ 342
+kra 342
+ad_ 341
+ało 341
+ncj 340
+_oc 339
+kar 339
+nad 339
+mar 338
+nwe 338
+żen 337
+_ud 336
+óżn 336
+_ca 335
+lno 335
+rea 335
+ope 334
+adk 333
+ame 333
+dpo 333
+elo 333
+onf 333
+och 332
+wno 332
+ema 330
+woś 330
+naz 329
+nu_ 329
+ods 329
+zad 329
+łem 329
+_rz 328
+wał 327
+olo 326
+_is 325
+ełn 325
+kry 325
+odk 325
+peł 325
+szk 325
+ąć_ 325
+_m_ 324
+alo 323
+ru_ 323
+ul_ 323
+dku 322
+rsz 322
+rci 321
+cow 320
+der 320
+nat 320
+ysz 320
+poł 319
+_sł 318
+rwe 318
+wne 317
+iki 316
+len 316
+stu 316
+_ha 315
+nię 315
+_n_ 314
+oto 314
+_on 313
+_sw 313
+_le 312
+nty 312
+yza 312
+zyp 311
+_br 310
+ruk 310
+_dn 309
+man 309
+mię 309
+obl 309
+tat 309
+wą_ 309
+ner 308
+run 308
+_el 307
+kaz 307
+ryc 307
+wyd 307
+mag 306
+pcj 305
+udz 305
+_ad 304
+emy 304
+bib 303
+ing 303
+nak 303
+ylk 303
+ypa 302
+zda 302
+zeb 302
+dob 300
+baz 299
+cz_ 299
+tom 299
+wny 299
+zło 299
+_ot 298
+pyt 298
+rol 298
+wyn 298
+ycj 298
+azw 297
+pan 297
+rza 297
+sk_ 297
+ume 297
+dcz 296
+pre 296
+woj 295
+duj 294
+lis 294
+nku 294
+ukt 294
+_of 293
+wir 293
+żyw 293
+pni 292
+spe 292
+zam 292
+śre 292
+_og 290
+tio 290
+łan 290
+azy 289
+ozy 289
+atu 288
+eme 288
+tel 288
+ury 288
+uwa 288
+mog 287
+reś 287
+amy 286
+nag 286
+sa_ 286
+zyw 286
+etr 285
+irm 285
+łu_ 285
+_zł 284
+ere 284
+fir 284
+las 283
+wow 283
+_dw 282
+_mn 281
+aro 281
+gól 281
+twi 281
+ywi 281
+awn 280
+daj 280
+dot 280
+każ 280
+oka 280
+zem 280
+anu 279
+ela 279
+oln 279
+awo 278
+jeś 278
+rej 278
+uro 278
+iwo 277
+put 277
+amu 276
+eru 276
+ode 276
+zpi 276
+_zg 275
+mpu 275
+rtu 275
+ył_ 275
+cą_ 274
+emi 274
+nkc 274
+rst 274
+wat 274
+_la 273
+gen 273
+rys 273
+umo 273
+ępu 273
+cej 272
+uto 272
+ark 271
+ozn 271
+_ed 270
+bow 270
+eta 270
+iat 270
+iru 270
+opc 270
+pew 270
+wol 270
+dod 269
+ntó 269
+wes 269
+wi_ 269
+aut 268
+ord 268
+atk 267
+dne 267
+rne 267
+iew 266
+nni 266
diff --git a/tika-core/src/main/resources/org/apache/tika/language/pt.ngp b/tika-core/src/main/resources/org/apache/tika/language/pt.ngp
new file mode 100644
index 0000000000..34f0d66b18
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/pt.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+os_ 106562
+_de 94943
+de_ 78029
+ão_ 73364
+_co 70082
+as_ 67724
+ent 63763
+_qu 59914
+que 56968
+_a_ 55050
+do_ 50486
+_se 49212
+ue_ 48768
+nte 47706
+te_ 43622
+es_ 41035
+men 38593
+da_ 37937
+to_ 37913
+_pr 37585
+_re 37101
+est 35702
+com 34832
+con 33816
+em_ 33441
+_do 32672
+_es 32519
+_e_ 32507
+_po 32472
+ção 32297
+_pa 31603
+_o_ 31584
+_da 31273
+ia_ 28540
+ar_ 28269
+res 28202
+ra_ 27948
+sta 25994
+dos 25956
+par 25402
+_um 25401
+_no 25025
+ado 24915
+nto 23364
+or_ 22082
+er_ 21774
+ma_ 21744
+açã 21040
+ame 20887
+se_ 20757
+pre 20137
+_em 19954
+_in 19858
+pro 19578
+ida 19522
+is_ 18817
+ara 18446
+ta_ 18437
+ica 18404
+_pe 18337
+sen 18221
+_di 17530
+por 17260
+_ma 17070
+mos 16899
+ter 16877
+_as 16774
+_me 16634
+dad 16600
+cia 16511
+uma 16455
+ess 16398
+tra 16270
+ade 16261
+des 15992
+ria 15577
+al_ 15111
+no_ 15108
+_te 14909
+ões 14808
+um_ 14573
+nta 14430
+das 14350
+são 14212
+_os 14194
+io_ 14192
+ais 14167
+ant 14084
+iss 13625
+não 13461
+rop 13397
+_nã 13395
+_é_ 13171
+ont 13118
+_na 13074
+nos 13062
+tiv 12897
+ito 12896
+ada 12829
+tad 12776
+ons 12392
+ela 12316
+nci 12089
+ste 11923
+rio 11757
+enh 11729
+so_ 11496
+tar 11461
+tos 11247
+uro 11192
+hor 11032
+pos 11024
+na_ 11017
+_eu 10972
+mo_ 10866
+nho 10866
+sso 10690
+omi 10640
+çõe 10399
+ist 10262
+mis 10234
+era 10204
+ro_ 10200
+am_ 10193
+eur 10130
+rec 10096
+om_ 10046
+_so 9861
+_ao 9830
+ser 9818
+_tr 9786
+ca_ 9780
+tam 9767
+per 9754
+_ap 9673
+_al 9658
+ect 9564
+ver 9488
+for 9481
+ntr 9414
+_ac 9353
+_ca 9305
+_ex 9293
+tem 9248
+eit 9235
+_en 9219
+qua 9034
+ime 8935
+esp 8865
+ran 8858
+sid 8855
+_fa 8763
+_fo 8732
+mas 8639
+ora 8629
+_ne 8572
+tic 8563
+ope 8466
+ide 8439
+tes 8388
+_su 8376
+ssã 8355
+re_ 8323
+ese 8299
+oss 8245
+ido 8211
+uni 8210
+int 8208
+_à_ 8189
+iva 8175
+ssa 8166
+ári 8155
+ndo 8121
+_ta 8067
+emo 8061
+_to 7968
+ece 7913
+sse 7912
+ura 7784
+rel 7763
+ass 7728
+mai 7648
+ram 7548
+ita 7497
+ost 7487
+den 7473
+omo 7470
+ou_ 7463
+sa_ 7368
+der 7355
+ali 7352
+eri 7351
+lo_ 7317
+ten 7311
+spe 7290
+ir_ 7147
+egu 7129
+ros 7115
+pel 7067
+eu_ 7040
+gra 6993
+lat 6985
+ere 6934
+ao_ 6878
+fic 6878
+orm 6832
+eir 6796
+cio 6770
+ort 6754
+str 6660
+tan 6635
+ati 6620
+eve 6602
+rma 6598
+sti 6573
+_mu 6512
+amb 6510
+ém_ 6467
+ina 6454
+pri 6443
+nde 6440
+_ou 6344
+açõ 6287
+_si 6277
+eci 6249
+reg 6226
+_ve 6210
+dir 6158
+cto 6140
+ênc 6128
+obr 6108
+art 6093
+pei 6087
+lho 6046
+end 6024
+raç 5997
+and 5978
+ico 5954
+ona 5904
+vel 5857
+co_ 5802
+el_ 5771
+tas 5765
+va_ 5763
+iza 5727
+seg 5718
+lam 5713
+ion 5694
+emp 5692
+_im 5671
+ual 5667
+ire 5664
+_an 5649
+tur 5635
+dev 5609
+ho_ 5572
+imp 5569
+ode 5568
+tro 5561
+lar 5555
+esi 5545
+_vi 5512
+bre 5444
+cor 5371
+eia 5360
+amo 5358
+dep 5357
+_fi 5339
+ili 5321
+_mo 5306
+ces 5289
+ios 5276
+cas 5275
+tor 5273
+ias 5222
+ião 5200
+nti 5178
+cti 5166
+pen 5166
+tod 5161
+act 5155
+uta 5153
+pod 5129
+_un 5090
+lid 5078
+rta 5033
+fer 5032
+ele 5025
+nda 5019
+sob 5018
+nse 5009
+ici 4964
+rem 4950
+nst 4946
+ore 4919
+ome 4891
+ind 4883
+itu 4841
+min 4839
+mpo 4831
+rei 4827
+mpr 4795
+efe 4776
+ref 4772
+pol 4761
+ses 4755
+íti 4736
+uit 4734
+car 4717
+odo 4717
+bém 4713
+mbé 4713
+dem 4679
+rat 4667
+und 4666
+ema 4658
+ssi 4650
+rad 4634
+tão 4628
+cer 4612
+man 4585
+ivo 4584
+dis 4581
+ens 4561
+sto 4547
+ord 4540
+lic 4534
+rá_ 4530
+eco 4528
+qui 4525
+nha 4521
+_gr 4500
+nal 4500
+spo 4493
+niã 4449
+vo_ 4449
+ira 4439
+ano 4426
+emb 4419
+are 4417
+cad 4410
+edi 4377
+elh 4361
+elo 4357
+mui 4351
+_li 4340
+tal 4329
+pon 4322
+ari 4290
+nas 4289
+inc 4271
+sem 4269
+_cr 4229
+ori 4229
+ial 4227
+_or 4208
+opo 4188
+vid 4158
+la_ 4129
+olí 4126
+ras 4118
+aci 4110
+_at 4109
+lme 4106
+go_ 4097
+put 4093
+_ob 4079
+me_ 4076
+col 4070
+epu 4048
+liz 4048
+óri 4048
+lít 4036
+rla 4024
+_fu 4005
+ate 3992
+ern 3983
+nes 3975
+rar 3975
+erc 3961
+uer 3926
+omp 3919
+erm 3911
+tór 3905
+ula 3903
+_mi 3896
+cid 3889
+_sa 3857
+nça 3850
+egi 3847
+arl 3827
+ata 3817
+rte 3813
+_go 3808
+íve 3780
+apr 3769
+ça_ 3758
+nic 3743
+ini 3739
+_is 3733
+iro 3702
+alm 3672
+anç 3671
+_ci 3662
+_le 3650
+mun 3641
+oci 3640
+tri 3619
+onc 3592
+stã 3582
+_el 3580
+tua 3575
+sua 3550
+ifi 3546
+ien 3536
+enc 3532
+omu 3514
+rti 3507
+sas 3494
+_ag 3493
+vol 3493
+taç 3492
+sár 3491
+mer 3480
+ua_ 3466
+pec 3465
+ssá 3451
+ndi 3437
+fun 3410
+alt 3409
+fin 3402
+tid 3383
+cul 3370
+ues 3348
+sos 3346
+bil 3339
+aís 3330
+cri 3328
+gar 3326
+paí 3314
+poi 3308
+dec 3290
+mes 3286
+uan 3283
+gos 3282
+gun 3280
+ató 3270
+bal 3265
+leg 3264
+tre 3263
+mem 3262
+içã 3251
+_ad 3249
+ins 3248
+equ 3232
+roc 3227
+dam 3223
+zer 3223
+erá 3216
+ret 3210
+ren 3200
+rda 3199
+esc 3190
+aba 3180
+unt 3179
+out 3168
+esa 3167
+_vo 3165
+mbr 3156
+sol 3149
+laç 3132
+tit 3128
+erv 3120
+utr 3120
+ega 3113
+_ju 3110
+_am 3103
+did 3098
+mpl 3090
+mei 3086
+aqu 3082
+aco 3073
+nce 3072
+bro 3067
+_ba 3065
+lem 3064
+ral 3061
+ven 3058
+nco 3055
+nsi 3054
+ena 3053
+rim 3049
+dor 3045
+sej 3045
+cos 3034
+peu 3033
+eja 3032
+uçã 3029
+ond 3021
+cei 3020
+seu 3017
+ha_ 3007
+aos 3002
+smo 2996
+ve_ 2988
+cis 2986
+rea 2986
+nec 2951
+po_ 2939
+vis 2935
+sit 2932
+uto 2924
+ult 2922
+env 2919
+ero 2897
+_sã 2889
+rmo 2885
+tin 2885
+enç 2883
+mit 2881
+ior 2880
+olv 2880
+dia 2860
+soc 2859
+eme 2857
+_au 2843
+sel 2825
+vam 2817
+ala 2814
+até 2801
+ois 2775
+nov 2773
+pes 2768
+ber 2765
+jec 2763
+zaç 2763
+ova 2752
+alh 2748
+vos 2731
+evi 2730
+inh 2730
+ust 2722
+_ho 2709
+_ab 2708
+fac 2704
+rab 2700
+cre 2697
+err 2687
+ert 2678
+ama 2673
+áve 2664
+mar 2662
+nvo 2658
+anc 2657
+_cu 2651
+im_ 2647
+exi 2643
+ete 2641
+rna 2634
+faz 2626
+olu 2612
+alg 2608
+ape 2608
+ota 2601
+orç 2590
+rev 2582
+sim 2575
+mbi 2569
+_ce 2568
+éri 2561
+cla 2555
+tir 2554
+abe 2541
+caç 2536
+ani 2529
+orr 2514
+já_ 2512
+_já 2509
+nad 2508
+tim 2479
+_be 2469
+oce 2462
+esm 2455
+rov 2454
+rig 2451
+ove 2449
+rod 2446
+imo 2443
+dar 2441
+aze 2426
+_lo 2419
+nid 2419
+_fe 2414
+osi 2409
+eno 2398
+ima 2394
+dic 2384
+_va 2375
+rmi 2375
+ans 2370
+lte 2364
+erg 2362
+_ch 2360
+tud 2358
+erd 2356
+cen 2352
+vas 2337
+íse 2336
+iti 2334
+_ec 2327
+lgu 2325
+oi_ 2325
+stá 2324
+foi 2316
+_aq 2315
+ja_ 2315
+vez 2314
+pa_ 2312
+imi 2311
+ez_ 2302
+squ 2299
+_lu 2289
+med 2288
+igo 2286
+ace 2285
+gur 2283
+_ge 2281
+rre 2275
+rep 2271
+nsa 2265
+ric 2264
+ce_ 2259
+sis 2258
+ns_ 2256
+ui_ 2251
+_op 2243
+gui 2243
+nom 2240
+_ef 2238
+pli 2232
+às_ 2226
+ble 2224
+eis 2223
+rca 2222
+tec 2222
+içõ 2220
+oca 2218
+_às 2216
+nve 2192
+olo 2191
+_ra 2188
+_nu 2186
+tá_ 2186
+_la 2180
+dif 2178
+ext 2171
+iar 2165
+lhe 2163
+inf 2149
+rog 2141
+lvi 2134
+gua 2133
+us_ 2133
+rid 2129
+abi 2127
+opa 2126
+nçã 2124
+ego 2119
+_há 2116
+iam 2115
+tru 2114
+ço_ 2112
+iga 2100
+odu 2097
+rin 2090
+ume 2090
+_fr 2089
+oda 2088
+oje 2088
+há_ 2087
+vem 2087
+ogr 2084
+nac 2076
+los 2072
+bat 2066
+diz 2061
+ovo 2059
+lta 2052
+isa 2050
+rno 2050
+pas 2046
+bor 2045
+isc 2033
+nan 2031
+gor 2027
+onf 2026
+cam 2020
+ato 2019
+fei 2017
+ive 2014
+ocu 2014
+lha 2007
+lim 2003
+vei 2003
+exe 1998
+uir 1998
+ain 1996
+apo 1996
+bri 1996
+mpe 1995
+efi 1994
+uas 1994
+rib 1990
+agr 1988
+ola 1984
+sab 1984
+bem 1983
+cim 1981
+tár 1976
+eus 1975
+cçã 1970
+ibu 1967
+clu 1963
+dei 1960
+tui 1946
+aso 1944
+rit 1941
+bas 1938
+rên 1937
+quo 1932
+rdo 1932
+sar 1932
+exp 1928
+can 1927
+cie 1926
+pró 1924
+_ai 1922
+ple 1910
+eal 1898
+age 1891
+itá 1883
+siç 1871
+udo 1868
+_cl 1867
+mat 1862
+bje 1855
+iad 1847
+obj 1841
+rça 1840
+gen 1838
+lan 1838
+uo_ 1835
+vim 1834
+nor 1832
+_ti 1828
+ana 1825
+abo 1823
+ole 1817
+utu 1810
+rga 1804
+sam 1804
+ava 1802
+isp 1802
+upo 1801
+atr 1797
+ced 1789
+num 1785
+rde 1782
+ize 1778
+ris 1777
+mod 1768
+nai 1759
+mic 1757
+gem 1744
+def 1741
+lis 1740
+iaç 1739
+ssu 1732
+rão 1726
+via 1723
+cur 1718
+rup 1718
+til 1712
+rob 1707
+lei 1706
+tér 1702
+luç 1698
+ers 1696
+eio 1694
+raz 1693
+xis 1693
+ham 1692
+uti 1687
+ase 1678
+bli 1677
+rav 1669
+tai 1667
+deb 1663
+obl 1657
+red 1656
+_ha 1651
+uaç 1650
+lec 1647
+_ar 1646
+ite 1644
+lev 1641
+rqu 1640
+ivi 1639
+nhe 1639
+_ir 1632
+onh 1630
+uiç 1627
+gru 1625
+rom 1624
+uga 1622
+eba 1621
+ctu 1619
+eva 1619
+gia 1615
+ote 1610
+sív 1603
+atu 1598
+ibi 1597
+vot 1597
+arm 1594
+_af 1591
+ave 1590
+maç 1590
+ncl 1584
+nar 1581
+aio 1580
+mel 1578
+_tu 1574
+hum 1572
+sub 1569
+ger 1566
+val 1561
+íci 1554
+_ev 1553
+ves 1552
+egr 1551
+dão 1545
+_du 1541
+anh 1538
+nis 1529
+ecu 1525
+uin 1524
+las 1522
+ede 1521
+onv 1517
+icu 1513
+uda 1513
+ós_ 1513
+ife 1511
+ian 1510
+nív 1509
+arg 1507
+eta 1505
+sõe 1502
+efo 1496
+plo 1480
+nóm 1478
+uns 1478
+tom 1475
+les 1474
+soa 1474
+çam 1474
+rvi 1473
+vad 1473
+rot 1470
+eda 1468
+lug 1459
+ene 1456
+zad 1450
+gum 1448
+mil 1444
+tou 1443
+eli 1438
+aut 1432
+jud 1430
+ei_ 1428
+sco 1426
+_ga 1423
+mul 1423
+gov 1419
+duz 1417
+rie 1414
+uai 1414
+uad 1413
+rce 1412
+eti 1411
+ga_ 1408
+orn 1408
+_pl 1407
+ómi 1407
+nit 1406
+nfo 1402
+har 1399
+afi 1397
+nso 1396
+_ní 1393
+sum 1393
+eso 1392
+fal 1392
+rgu 1392
+ssí 1392
+apl 1390
+onó 1390
+_bo 1388
+unc 1388
+lad 1387
+rme 1387
+gul 1386
+áti 1386
+hec 1385
+lti 1385
+ilh 1379
+gis 1377
+cta 1374
+rol 1370
+_só 1364
+tab 1363
+acç 1357
+rtu 1356
+mon 1348
+sec 1347
+_hu 1345
+ino 1343
+cip 1340
+nam 1340
+tig 1335
+sul 1332
+lia 1331
+ism 1326
+loc 1326
+ços 1324
+inu 1323
+lib 1322
+iai 1321
+ânc 1317
+oso 1315
+rto 1315
+fra 1311
+oma 1311
+isã 1302
+nsu 1301
+ãos 1298
+irm 1290
+_lh 1284
+meu 1281
+il_ 1277
+ong 1274
+só_ 1274
+cit 1273
+igu 1272
+mad 1268
+té_ 1267
+che 1263
+ulo 1258
+nua 1257
+ner 1254
+ago 1251
+gas 1249
+sad 1249
+nat 1246
+gad 1245
+mid 1244
+lor 1243
+rac 1243
+pio 1242
+fec 1240
+ast 1236
+bra 1236
+púb 1236
+úbl 1235
+nsp 1231
+paç 1231
+nif 1230
+róp 1230
+dim 1229
+ltu 1229
+fir 1226
+ópr 1224
+bit 1223
+gue 1223
+ign 1222
+pla 1222
+ipa 1219
+adã 1217
+ane 1216
+ecç 1211
+tân 1211
+adi 1207
+ibe 1207
+je_ 1207
+bie 1200
+za_ 1198
+az_ 1195
+apa 1194
+len 1194
diff --git a/tika-core/src/main/resources/org/apache/tika/language/ro.ngp b/tika-core/src/main/resources/org/apache/tika/language/ro.ngp
new file mode 100644
index 0000000000..3cb71afc15
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/ro.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_de 275797
+de_ 221617
+_în 201809
+te_ 185452
+ul_ 173696
+re_ 147553
+şi_ 144596
+în_ 138751
+le_ 138646
+_a_ 133790
+_şi 129587
+are 128007
+ea_ 126532
+_ca 107537
+in_ 103624
+_di 103605
+_pr 101695
+est 101638
+_co 100783
+ui_ 98427
+ia_ 96188
+ii_ 94435
+lui 91306
+din 89879
+_pe 87943
+la_ 87244
+or_ 86340
+_la 85811
+ste 85394
+_ma 83317
+ate 82009
+_un 81730
+_al 80569
+ent 76873
+at_ 76298
+_cu 76154
+ei_ 75281
+tă_ 74565
+_re 73436
+ele 69971
+al_ 68556
+ntr 67751
+ulu 67602
+rea 66513
+tat 65973
+_se 65202
+_es 62123
+_in 61236
+eri 60921
+ie_ 60412
+car 60313
+_ce 60304
+_fo 59970
+lor 59578
+tor 56819
+con 56788
+_o_ 55465
+cu_ 55403
+_ac 54614
+că_ 54083
+tul 53892
+se_ 53831
+ori 52641
+st_ 51801
+ale 51347
+ri_ 51093
+pri 50682
+au_ 50343
+ist 49381
+_su 48666
+ter 48613
+tru 48049
+_po 47312
+ita 46805
+ile 46762
+pre 45339
+_ro 44548
+ce_ 44471
+aţi 44169
+ne_ 43210
+tre 42947
+un_ 42868
+int 42797
+_lu 42307
+nte 42206
+uri 42127
+pe_ 41815
+_sa 41679
+ar_ 41444
+ace 41264
+ai_ 41170
+ani 41113
+_fi 40769
+ru_ 40371
+ca_ 39967
+_pa 39949
+ali 39944
+rom 39778
+sta 39493
+_au 39046
+_tr 38650
+ost 38644
+_nu 38163
+pro 37941
+ilo 37912
+tra 37768
+_st 37626
+_ar 37507
+mai 37165
+nd_ 37160
+ici 37105
+să_ 37075
+_an 37073
+ra_ 37044
+art 36938
+mân 36409
+lit 36119
+era 36065
+tic 36047
+ere 35981
+tur 35373
+str 35258
+men 34656
+_mo 34654
+par 33961
+_să 33809
+it_ 32860
+rat 32832
+_or 32526
+fos 32407
+_lo 32368
+tea 32242
+nă_ 32048
+uni 31985
+pen 31966
+an_ 31682
+ată 31524
+nt_ 31441
+nia 31202
+ica 31013
+mar 30991
+ră_ 30959
+_mu 30944
+rin 30651
+mul 30630
+per 30598
+ine 30560
+eni 30285
+oar 30205
+_că 30187
+ta_ 30063
+rii 29904
+_do 29778
+ril 29631
+_si 29620
+ni_ 29000
+rul 28851
+iei 28667
+com 28654
+omâ 28575
+rit 28561
+_mi 28466
+une 28391
+ari 28066
+_li 28048
+ran 27960
+_da 27286
+ţii 27231
+nul 27089
+loc 27076
+rie 26978
+na_ 26900
+ice 26761
+ind 26483
+man 26445
+cel 26408
+ric 26341
+rma 26153
+ică 26017
+atu 25888
+el_ 25888
+ion 25661
+ces 25525
+num 25470
+şti 25305
+ând 25271
+ţi_ 25157
+sti 25125
+ona 25056
+eşt 24934
+_ap 24786
+lă_ 24517
+ite 24505
+_te 24363
+_le 24038
+ili 24008
+ora 23784
+ast 23778
+ant 23667
+rec 23641
+ic_ 23606
+cal 23390
+_me 23380
+ări 23378
+_ex 23216
+ult 23097
+nic 23019
+cul 22957
+tel 22804
+_fa 22657
+iul 22622
+_pu 22592
+_du 22549
+_no 22348
+ini 22340
+edi 22323
+cea 22318
+ţie 22301
+chi 22228
+ită 22094
+ina 22017
+mun 21963
+ial 21869
+ara 21834
+imp 21773
+ati 21765
+ţia 21688
+ons 21687
+anu 21565
+înt 21525
+esc 21469
+ut_ 21469
+col 21419
+nu_ 21377
+_as 21375
+_ju 21163
+_sc 21151
+tri 21022
+ect 21010
+iun 20861
+for 20836
+rim 20699
+ci_ 20657
+nea 20620
+olo 20619
+res 20539
+_sp 20396
+ză_ 20353
+_ve 20352
+tin 20342
+mat 20314
+nal 20170
+tar 20159
+_vi 20021
+rte 19783
+ria 19682
+nde 19673
+cat 19627
+_cr 19624
+ire 19448
+min 19442
+_ba 19400
+lul 19370
+tiv 19350
+scu 19335
+itu 19309
+ura 19041
+reg 18994
+va_ 18959
+nta 18888
+oca 18815
+âni 18781
+unt 18566
+ume 18522
+tan 18465
+lic 18432
+ene 18413
+ală 18381
+cur 18370
+ti_ 18359
+elo 18349
+_so 18122
+ito 18094
+_ge 18037
+_va 18023
+and 17944
+dat 17919
+ver 17885
+nce 17880
+_ti 17757
+_ne 17693
+ţa_ 17524
+înc 17402
+des 17256
+orm 17254
+_to 17249
+iar 17157
+nat 17137
+cia 17125
+us_ 17115
+enţ 17010
+nti 16978
+por 16959
+nst 16737
+ato 16732
+şte 16599
+oli 16590
+ort 16550
+_ad 16437
+stă 16374
+lea 16339
+_fr 16327
+der 16276
+nit 16204
+mit 16122
+ude 16097
+iu_ 16065
+_gr 15912
+fic 15902
+_bu 15804
+ian 15776
+rti 15706
+ame 15696
+ază 15645
+ral 15613
+ers 15562
+eas 15560
+tal 15544
+iţi 15504
+cri 15396
+reş 15368
+iza 15344
+_bi 15331
+tim 15305
+_im 15246
+er_ 15231
+cer 15093
+rep 15028
+raş 15027
+pă_ 15023
+bil 15010
+ocu 14954
+ier 14897
+nţi 14856
+ten 14815
+_s_ 14793
+_câ 14771
+ser 14758
+rop 14727
+ma_ 14705
+eaz 14646
+ern 14644
+_el 14613
+ont 14610
+erm 14590
+fer 14569
+nci 14556
+oni 14450
+on_ 14415
+act 14376
+pul 14374
+pol 14224
+ven 14180
+jud 14150
+_ia 14119
+inc 14114
+eze 14079
+ţă_ 14078
+_na 14076
+cre 14047
+ase 14036
+rez 14028
+sa_ 14006
+cut 13982
+deţ 13968
+alt 13958
+rel 13854
+imi 13777
+ond 13770
+ăţi 13770
+_at 13756
+nii 13750
+put 13732
+olu 13724
+egi 13722
+ndu 13588
+ide 13572
+iin 13571
+ula 13547
+ţul 13510
+lte 13471
+sun 13468
+ime 13442
+cţi 13421
+nsi 13400
+tăţ 13400
+iil 13387
+sit 13381
+ntu 13360
+eci 13333
+ţio 13325
+inţ 13295
+ata 13275
+ima 13274
+gra 13272
+ris 13179
+omu 13168
+cen 13146
+ans 13128
+_pi 13115
+_ci 13026
+nţa 13012
+ive 13011
+ger 13005
+es_ 12895
+upă 12888
+ins 12825
+eţu 12816
+toa 12698
+_ră 12692
+eme 12640
+ară 12616
+me_ 12609
+dup 12591
+oma 12577
+nie 12492
+lat 12464
+unc 12455
+iti 12453
+sau 12450
+tit 12450
+ane 12440
+_er 12429
+stu 12410
+lia 12375
+nor 12349
+_av 12259
+ure 12203
+sto 12200
+ţin 12155
+lim 12104
+lan 12054
+ope 12050
+ecu 12006
+lin 11992
+dia 11967
+nis 11947
+umi 11933
+oru 11913
+fii 11815
+_am 11811
+_ur 11803
+eco 11786
+mon 11769
+ioa 11684
+sat 11672
+sul 11665
+ute 11646
+dec 11637
+vin 11632
+_ch 11596
+dar 11594
+ord 11567
+cum 11532
+ndi 11528
+ece 11523
+lar 11483
+mer 11481
+sec 11441
+uit 11433
+den 11401
+rar 11401
+ner 11385
+_vo 11194
+cti 11181
+cep 11157
+leg 11154
+ovi 11127
+mel 11122
+can 11094
+oi_ 11066
+tem 11061
+abi 10975
+_ni 10917
+is_ 10913
+duc 10884
+_fe 10882
+imb 10857
+sup 10852
+mic 10850
+mpo 10846
+ctu 10795
+_br 10787
+bli 10786
+inu 10786
+rio 10760
+fra 10753
+um_ 10716
+eli 10698
+rta 10698
+tro 10691
+dic 10676
+ala 10593
+scr 10567
+gen 10542
+omi 10530
+zat 10487
+bri 10453
+spe 10437
+_ra 10434
+und 10427
+eta 10416
+rei 10395
+ână 10370
+oat 10362
+_bo 10357
+_pl 10357
+_af 10350
+anţ 10346
+mil 10262
+dis 10251
+nda 10243
+uno 10179
+păr 10146
+emi 10116
+ivi 10111
+ana 10107
+_dr 10102
+rad 10078
+da_ 10040
+iv_ 10031
+ise 10026
+ăto 10023
+pun 9989
+ren 9984
+uţi 9965
+ome 9936
+mbr 9881
+nei 9872
+nţe 9847
+ing 9824
+elu 9752
+one 9736
+_cl 9676
+nar 9620
+ifi 9541
+lie 9535
+pân 9508
+_pă 9502
+fi_ 9471
+ust 9457
+sub 9442
+omp 9419
+spr 9408
+cor 9392
+cip 9338
+_îm 9319
+sil 9317
+upr 9282
+vol 9273
+_is 9267
+pra 9251
+si_ 9224
+ede 9211
+ânt 9199
+log 9165
+epu 9159
+căt 9139
+iri 9115
+cii 9099
+ezi 9069
+ore 9069
+cop 9065
+sem 9020
+una 9016
+ept 9015
+ber 9012
+unu 9006
+alu 8999
+liz 8996
+dul 8976
+che 8918
+opu 8918
+ade 8878
+ege 8863
+anc 8856
+van 8851
+gin 8838
+pec 8833
+asc 8832
+tua 8806
+ela 8790
+sco 8771
+iet 8752
+oas 8741
+mpl 8721
+eve 8689
+ung 8685
+dus 8674
+ete 8671
+apa 8668
+rem 8648
+ubl 8575
+_tu 8553
+cto 8553
+atr 8508
+pop 8505
+val 8497
+esp 8495
+_i_ 8474
+il_ 8454
+_ru 8421
+iat 8412
+eti 8372
+ien 8351
+riu 8348
+ole 8340
+dev 8337
+cân 8332
+şul 8321
+ova 8315
+nil 8309
+uce 8307
+dep 8251
+împ 8243
+naţ 8143
+urm 8128
+ură 8106
+ean 8101
+ese 8040
+emb 8033
+sal 7996
+ico 7986
+org 7980
+etr 7979
+dre 7977
+_fu 7957
+_ob 7941
+ană 7928
+ât_ 7925
+fie 7882
+_pâ 7880
+nţă 7873
+sc_ 7868
+cun 7866
+gre 7811
+pat 7780
+cât 7771
+apr 7758
+ron 7747
+pub 7730
+mpu 7712
+nel 7710
+med 7706
+ret 7698
+en_ 7683
+red 7677
+fac 7670
+căr 7657
+apo 7656
+ntă 7631
+_oc 7619
+rac 7593
+eal 7591
+măr 7589
+pla 7585
+ech 7558
+los 7549
+_be 7547
+evi 7536
+til 7527
+_ta 7522
+sch 7499
+vit 7491
+osi 7488
+tr_ 7482
+asi 7472
+oci 7464
+uro 7447
+les 7433
+mod 7373
+asa 7368
+lon 7361
+bis 7338
+tei 7331
+arc 7328
+za_ 7302
+ola 7295
+ave 7291
+os_ 7288
+ină 7264
+pot 7263
+ău_ 7257
+_ga 7256
+lta 7254
+_op 7251
+oan 7248
+ami 7216
+ono 7211
+gur 7195
+mă_ 7191
+exi 7190
+rd_ 7184
+uat 7182
+luc 7171
+ge_ 7164
+ism 7155
+scă 7150
+zi_ 7130
+ogi 7121
+_fă 7118
+dă_ 7116
+lec 7080
+dea 7050
+uto 7042
+lis 7039
+enu 7029
+cte 7020
+ţiu 7012
+_ec 7010
+aş_ 7002
+odu 6998
+tră 6984
+eor 6979
+tot 6966
+rme 6965
+riv 6960
+dov 6921
+erc 6907
+iec 6900
+_ai 6879
+imu 6878
+dom 6876
+_eu 6875
+aşu 6872
+ţil 6870
+pie 6865
+raf 6865
+ună 6853
+cin 6852
+ove 6834
+_mă 6818
+_ha 6815
+izi 6809
+vie 6793
+ct_ 6789
+aşi 6788
+raţ 6774
+lun 6766
+rev 6763
+ict 6757
+buc 6755
+ba_ 6743
+lel 6743
+îns 6742
+ze_ 6731
+laţ 6694
+opo 6682
+ot_ 6676
+rţi 6662
+gat 6657
+udi 6656
+sin 6595
+cla 6565
+âne 6562
+apt 6555
+soc 6555
+acu 6542
+old 6542
+iva 6539
+ucr 6532
+eur 6531
+ătr 6521
+et_ 6512
+dem 6508
+esi 6508
+icu 6498
+fel 6493
+ens 6489
+ero 6453
+adi 6442
+use 6435
+adu 6429
+dez 6425
+poa 6421
+dou 6419
+_ev 6413
+opi 6405
+rus 6405
+he_ 6399
+mol 6397
+ega 6396
+mis 6396
+lum 6393
+tui 6392
+osc 6372
+ref 6366
+ves 6332
+uă_ 6331
+exp 6327
+cra 6300
+lva 6288
+ote 6263
+ol_ 6261
+zar 6260
+lt_ 6254
+clu 6251
+epr 6246
+rna 6245
+fol 6232
+cap 6227
+_zi 6219
+_sf 6217
+_of 6215
+igi 6210
+aut 6177
+eţi 6172
+răz 6168
+xis 6135
+eau 6121
+ozi 6116
+hia 6111
+cup 6106
+aju 6105
+nes 6099
+fin 6095
+pan 6093
+ndr 6091
+fil 6084
+nom 6063
+fun 6060
+giu 6057
+utu 6056
+ram 6054
+mba 6042
+pli 6036
+gan 6031
+ub_ 6016
+acă 6010
+eca 6006
+boi 5998
+zen 5995
+ns_ 5993
+ătu 5991
+erv 5985
+sur 5980
+ada 5976
+ăra 5973
+ton 5969
+ipa 5966
+rod 5936
+nui 5922
+vic 5920
+_ul 5897
+end 5888
+del 5868
+afl 5863
+mor 5861
+ouă 5857
+isc 5854
+tud 5850
+ua_ 5841
+uma 5838
+pa_ 5836
+azi 5817
+ard 5811
+nos 5811
+rân 5802
+gar 5800
+ang 5781
+zbo 5777
+inf 5776
+ăru 5770
+aru 5769
+var 5760
+ţel 5756
+mur 5752
+_gu 5751
+urs 5744
+cie 5743
+ogr 5736
+bra 5719
+tii 5701
+du_ 5697
+las 5693
+ltu 5691
+emn 5684
+sar 5671
+cui 5668
+rui 5658
+ena 5655
+arm 5654
+_n_ 5653
+_jo 5647
+ilv 5630
+eră 5629
+evo 5613
+zon 5603
+nsu 5599
+afi 5596
+ema 5578
+met 5576
+dit 5574
+roa 5574
+olt 5571
+_ed 5569
+niv 5569
+dru 5566
+ghe 5553
+tăr 5545
+vor 5529
+eva 5527
+sen 5526
+aco 5516
+eru 5498
+obi 5496
+ără 5486
+oie 5485
+roc 5467
+ăzb 5465
+ama 5463
+rov 5461
+ual 5461
+aci 5440
+_io 5432
+mag 5426
+lem 5406
+ert 5396
+ior 5395
+reu 5389
+rup 5383
+ucu 5375
+tie 5373
+vec 5369
+dif 5343
+dac 5321
+ose 5320
+ain 5312
+ext 5290
+niu 5289
+cit 5284
+pet 5281
+sim 5281
+ape 5280
+len 5278
+agi 5272
+ban 5272
+bel 5272
+mpe 5267
+rol 5256
+onf 5255
+_en 5251
+uta 5251
+eea 5250
+rt_ 5238
+ve_ 5238
+cet 5235
+pal 5230
+cad 5218
+pus 5216
+as_ 5213
+_ri 5208
+_ab 5196
+iaţ 5196
+cas 5194
+ldo 5193
+onu 5182
+siu 5169
+_l_ 5160
+mea 5155
+gal 5154
+rmi 5149
+_d_ 5145
+ruc 5135
+sud 5130
+nou 5128
+via 5118
+mir 5117
+am_ 5113
+rtu 5095
+nez 5090
+_th 5075
+ptu 5075
+_ho 5074
+dir 5074
+uşi 5065
+vă_ 5053
+nge 5041
+eat 5030
+nse 5030
+ule 5017
+rsi 5016
+cei 4994
+pos 4987
+li_ 4983
+lti 4973
+dur 4966
+tab 4964
+ple 4956
+alb 4954
diff --git a/tika-core/src/main/resources/org/apache/tika/language/ru.ngp b/tika-core/src/main/resources/org/apache/tika/language/ru.ngp
new file mode 100644
index 0000000000..c51123674a
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/ru.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_пр 9592
+_по 8070
+ени 7619
+ия_ 6631
+_в_ 6350
+_и_ 5933
+_на 5572
+ния 5354
+ост 5176
+ой_ 5065
+го_ 5034
+ть_ 4905
+ани 4896
+ых_ 4822
+про 4721
+ие_ 4584
+ого 4559
+ии_ 4511
+ств 4390
+ов_ 4369
+на_ 4272
+льн 4235
+_ко 4214
+_за 3993
+_ра 3990
+аци 3945
+ова 3943
+ных 3920
+ред 3688
+нны 3676
+ние 3659
+_со 3651
+_об 3634
+тел 3578
+ров 3376
+ста 3370
+ет_ 3268
+ся_ 3263
+пол 3219
+при 3196
+_ка 3169
+_не 3092
+мен 3061
+енн 3026
+ван 2947
+_вы 2901
+но_ 2880
+ель 2875
+лен 2862
+пре 2856
+сти 2841
+ом_ 2758
+_до 2739
+_ст 2732
+нно 2699
+анн 2691
+ист 2663
+ми_ 2632
+_ре 2558
+ые_ 2544
+ног 2531
+ий_ 2526
+ции 2506
+ли_ 2484
+нос 2471
+ти_ 2468
+чес 2446
+ной 2439
+тов 2404
+стр 2399
+раз 2381
+ьно 2373
+тся 2359
+_из 2357
+пер 2345
+дан 2342
+ате 2303
+иче 2236
+ля_ 2232
+ите 2220
+_от 2218
+ско 2213
+_с_ 2211
+оль 2211
+ест 2188
+нов 2187
+ент 2175
+_ин 2172
+ки_ 2154
+тор 2129
+еск 2123
+те_ 2119
+ая_ 2105
+их_ 2101
+аль 2056
+етс 2037
+_да 2027
+ать 2002
+та_ 1962
+тве 1959
+кон 1935
+_те 1922
+рав 1922
+_пе 1917
+вле 1910
+ера 1904
+ка_ 1903
+_мо 1888
+ные 1888
+ово 1832
+ый_ 1828
+пра 1824
+ей_ 1810
+ран 1802
+сте 1796
+ото 1776
+ем_ 1756
+не_ 1756
+_дл 1744
+_оп 1730
+нен 1713
+для 1703
+еде 1701
+дел 1700
+ком 1679
+орм 1674
+аст 1667
+сто 1663
+ски 1652
+то_ 1651
+_во 1623
+ере 1601
+тем 1581
+иро 1575
+рат 1566
+ьны 1537
+_си 1534
+тро 1530
+тер 1515
+фор 1503
+_о_ 1500
+ако 1493
+ое_ 1491
+_ос 1483
+ков 1460
+ным 1448
+чен 1439
+по_ 1437
+тан 1436
+тра 1431
+ва_ 1422
+авл 1414
+_то 1412
+_та 1405
+_де 1400
+нал 1399
+сть 1391
+или 1385
+_эт 1384
+_ис 1376
+_го 1374
+_сп 1367
+ват 1363
+ный 1352
+дер 1340
+сис 1336
+ты_ 1326
+спо 1322
+ает 1309
+_ме 1307
+рос 1305
+под 1302
+ден 1301
+оди 1293
+вен 1270
+ион 1265
+оро 1264
+ове 1255
+ить 1254
+ект 1251
+пос 1251
+еле 1239
+_а_ 1238
+_ма 1231
+ном 1230
+або 1223
+тно 1223
+бор 1213
+_но 1211
+зак 1211
+так 1208
+рма 1207
+мож 1205
+_к_ 1186
+вер 1185
+тав 1184
+_ус 1179
+иск 1179
+анд 1176
+ра_ 1176
+ым_ 1176
+_сл 1171
+оже 1167
+дат 1165
+вля 1155
+ию_ 1155
+ива 1151
+раб 1142
+вод 1141
+али 1140
+ны_ 1128
+зов 1127
+тив 1120
+ник 1116
+льз 1115
+его 1111
+сов 1111
+_ди 1109
+оло 1109
+том 1108
+сле 1106
+_се 1103
+рас 1100
+_чт 1099
+име 1097
+это 1092
+_ли 1090
+жен 1086
+рем 1086
+_ил 1083
+что 1080
+ход 1079
+дст 1076
+лов 1073
+ую_ 1066
+гра 1063
+онн 1062
+нии 1058
+как 1052
+да_ 1050
+кан 1043
+ак_ 1038
+спе 1037
+кой 1029
+_па 1026
+рам 1025
+цио 1021
+инф 1020
+яет 1019
+выб 1015
+ляе 1015
+рац 1012
+ах_ 1011
+жно 1008
+сно 1007
+бра 1002
+нфо 986
+бот 984
+тре 973
+мы_ 971
+она 970
+род 968
+ами 949
+вре 939
+ита 939
+мат 933
+ний 932
+ее_ 931
+ери 929
+пис 927
+кот 926
+печ 920
+ати 919
+мац 919
+ная 918
+ика 912
+еме 905
+исп 900
+ска 899
+вет 898
+мер 897
+му_ 896
+дос 894
+_бы 892
+иза 890
+ког 889
+уст 887
+ато 884
+дит 884
+ора 883
+от_ 880
+очн 879
+едс 878
+ода 878
+спр 875
+ющи 873
+_вс 867
+из_ 865
+олн 865
+зна 864
+чет 864
+обр 862
+уме 862
+одн 860
+ное 856
+осу 856
+_св 854
+вед 851
+ане 850
+дар 844
+иал 843
+_вр 841
+зац 835
+опр 835
+ара 834
+им_ 834
+овы 833
+емы 832
+арт 830
+ри_ 830
+ких 829
+ма_ 829
+же_ 828
+за_ 827
+ция 824
+тва 823
+ано 821
+кци 816
+тич 814
+лас 813
+нди 813
+оду 811
+ана 804
+ам_ 802
+нач 795
+сси 794
+тат 794
+во_ 792
+ида 792
+бир 788
+ира 787
+огр 781
+каз 780
+дис 779
+од_ 779
+ыбо 777
+изб 771
+лит 771
+лож 770
+нта 762
+рог 762
+лог 761
+ко_ 755
+док 754
+зво 754
+оку 752
+_тр 751
+_е_ 748
+зда 748
+ры_ 748
+овл 746
+пар 742
+_ср 739
+зби 738
+овн 738
+_ни 734
+пла 734
+осн 730
+уще 730
+ерж 729
+акт 726
+ожн 725
+_ве 723
+вны 723
+лед 722
+_им 721
+аво 721
+ующ 721
+дид 720
+нит 720
+тац 719
+оры 716
+тст 715
+еди 714
+рег 712
+ьзо 712
+ерв 711
+ла_ 711
+слу 710
+асс 704
+бъе 704
+час 704
+рно 703
+иру 702
+опе 700
+отв 699
+_че 693
+рез 693
+ико 692
+_уч 690
+тво 690
+щес 689
+ок_ 687
+все 685
+соб 685
+_пл 684
+мин 684
+хра 684
+лич 683
+шен 683
+_од 680
+кол 678
+ле_ 678
+ни_ 678
+зан 677
+ори 677
+оде 673
+имо 672
+аче 671
+вол 671
+дов 670
+ку_ 670
+луч 669
+уча 669
+ях_ 667
+уда 666
+вой 664
+есп 662
+ст_ 662
+_т_ 661
+аза 658
+ыми 658
+едо 657
+жет 657
+воз 656
+нти 655
+ели 653
+сре 653
+вно 651
+ует 651
+низ 650
+_су 649
+еду 649
+ата 647
+цен 647
+_н_ 644
+ер_ 641
+асп 640
+нте 639
+_ор 637
+_ми 636
+бли 635
+ке_ 635
+соо 634
+_фе 633
+ант 632
+рои 630
+ивн 629
+оце 629
+рен 628
+кум 627
+_ба 626
+обл 626
+объ 626
+вит 624
+кто 624
+вае 623
+зде 623
+клю 623
+_см 616
+_фо 616
+оли 614
+зап 613
+зме 612
+йст 611
+люч 608
+_бу 607
+аги 607
+тны 606
+явл 606
+тву 605
+гот 604
+атн 602
+ока 602
+ини 601
+ием 599
+суд 599
+орг 598
+пор 598
+_це 597
+дол 597
+оле 597
+тия 597
+_фа 596
+_ро 593
+тех 593
+_ан 592
+ина 592
+сли 592
+амм 591
+ейс 591
+ит_ 591
+лат 590
+рга 586
+_бо 585
+ало 583
+ема 581
+ган 579
+нто 579
+чно 579
+оме 578
+фед 576
+бол 575
+тви 575
+льк 574
+обы 574
+дин 573
+осс 573
+рал 572
+_бл 571
+ную 571
+реб 571
+лей 570
+са_ 570
+мет 569
+ютс 568
+_ва 565
+бес 565
+озд 563
+тур 560
+осо 559
+три 559
+год 558
+еда 558
+кти 557
+рес 557
+одо 556
+инт 555
+еля 554
+ене 554
+нию 554
+око 554
+отр 553
+рой 552
+_аг 551
+ль_ 551
+_ес 550
+ави 550
+азд 549
+ехн 549
+ому 549
+кла 548
+омп 548
+сь_ 547
+нич 546
+еги 544
+отк 544
+рим 544
+ют_ 543
+_уп 539
+вых 539
+сло 539
+изв 538
+щен 535
+_бе 534
+_ок 533
+тек 532
+гит 531
+_гр 529
+вую 529
+дно 528
+оля 527
+ыва 527
+ити 526
+обе 524
+сту 524
+бы_ 523
+олж 523
+быт 522
+апр 521
+рти 521
+тол 521
+оно 520
+соз 519
+рит 517
+уль 515
+_кр 514
+стн 512
+ета 511
+код 508
+мас 507
+нст 507
+сер 505
+сущ 505
+ься 505
+нда 504
+оиз 504
+тьс 503
+ен_ 502
+оот 502
+льт 500
+мя_ 499
+ела 497
+аме 496
+кам 495
+гов 494
+есс 493
+чат 493
+ций 491
+чни 490
+ерн 489
+иях 489
+лиз 489
+общ 489
+убл 489
+бла 488
+ови 488
+рст 486
+оги 485
+лок 484
+нас 484
+_ку 483
+_ти 483
+поз 483
+ут_ 482
+чит 481
+воч 480
+емо 479
+бло 478
+обо 478
+_ча 476
+_яв 476
+рус 476
+нтр 475
+дук 474
+ичн 470
+упр 470
+ыть 470
+_вк 469
+змо 467
+чны 467
+мос 466
+нар 466
+лек 465
+туп 464
+есл 463
+гос 461
+вкл 459
+вто 458
+иям 458
+ают 457
+ме_ 456
+_др 453
+отн 453
+сок 453
+нес 452
+_хр 450
+ло_ 450
+раж 449
+_фи 448
+лиц 447
+тоб 447
+има 446
+еро 445
+кие 445
+лик 445
+ляю 444
+сво 443
+ици 440
+мес 440
+яти 440
+ью_ 439
+ерс 438
+орн 438
+одс 437
+рна 437
+арс 436
+гла 436
+ежд 436
+щих 436
+рия 435
+сос 435
+ете 434
+онт 433
+_п_ 432
+мог 432
+ним 432
+тру 431
+чае 431
+чис 429
+циа 427
+ома 426
+реж 426
+вып 425
+озм 425
+_зн 423
+там 423
+_он 422
+ве_ 422
+ан_ 421
+выс 421
+цию 421
+еча 420
+лис 420
+_вн 419
+айл 418
+до_ 418
+ече 417
+ре_ 417
+дет 416
+ена 416
+об_ 416
+руг 416
+фай 416
+вир 415
+льс 415
+пом 415
+ада 414
+ду_ 414
+_ру 412
+лад 412
+пус 412
+изм 411
+ики 411
+сче 411
+ько 411
+ечи 409
+он_ 408
+вор 407
+пов 407
+ето 405
+рое 404
+юще 402
+азо 401
+ено 401
+опи 401
+ром 401
+тог 401
+ять 401
+еоб 399
+рол 399
+уче 399
+буд 398
+урн 397
+рок 396
+вы_ 395
+_ви 394
+бще 394
+екс 394
+роц 394
+тоя 394
+азр 393
+тит 393
+щие 393
+иде 392
+_г_ 391
+ающ 391
+ава 390
+зат 390
+ими 390
+осл 390
+они 389
+исл 388
+ями 387
+_же 386
+аки 386
+вид 384
+сод 384
+ор_ 383
+де_ 382
+рио 382
+овк 381
+пан 381
+мир 379
+се_ 378
+ала 377
+ади 376
+жны 375
+нап 375
+ъек 375
+_са 374
+дей 374
+емя 374
+_пу 373
+_х_ 372
+риа 372
+хни 372
+дач 371
+_ав 370
+кая 370
+дим 369
+ари 368
+гру 367
+ким 367
+тип 365
+жде 364
+рив 364
+усл 363
+ьзу 363
+лжн 361
+яте 360
+дру 359
+жит 359
+ссо 359
+_чи 358
+был 358
+_р_ 357
+иви 357
+мно 357
+пуб 357
+кры 356
+озв 356
+_ск 355
+иса 355
+нео 355
+обн 354
+кно 353
+ень 352
+кор 352
+ту_ 352
+баз 351
+нут 351
+рин 351
+нак 350
+_га 349
+спи 349
+едв 346
+инс 346
+_эф 345
+гис 345
+ебо 345
+ям_ 345
+_ег 343
+едн 343
+лем 343
+авт 342
+акж 342
+ащи 342
+ды_ 342
+кже 342
+вне 341
+дея 341
+зад 340
+яза 340
+_ар 338
+аем 337
+вос 337
+рон 337
+сам 337
+_ло 336
+ены 335
+жур 335
+сми 334
+ака 332
+рис 332
+тик 332
+чив 332
+вал 331
+_эк 330
+йте 330
+кта 329
+_жу 328
+ажд 328
+кро 328
+мод 328
+ачи 327
+сет 327
+той 327
+укт 327
+кий 325
+твл 325
+_мн 324
+рек 324
+_кл 323
+_м_ 323
+er_ 323
+цес 323
+гор 322
+изи 322
+мощ 322
+сан 322
+унк 322
+уро 321
+дак 320
+еят 320
+ота 320
+ело 319
+окн 319
+чи_ 319
+_их 318
+чер 318
+яют 318
+рми 317
+уде 317
+азы 316
+тир 316
+_л_ 315
+_сч 315
+ней 315
+эле 315
+ару 314
+лер 313
+рот 313
+бов 312
+омо 311
+обх 310
+ине 309
+наз 309
+оми 309
+_эл 308
+бхо 308
+ино 308
+_ук 307
+вяз 307
+рир 307
+аже 306
+еще 306
+пот 305
+фир 305
+укц 304
+аты 303
+мпа 303
+ез_ 301
+нци 301
+смо 301
+_дв 300
+ины 300
+лее 300
+рск 300
+уск 300
+щег 300
+абл 298
+льш 298
+опу 298
+_ад 297
+_хо 297
+азм 296
+изн 296
+реа 296
+тки 296
+точ 296
+ача 295
+азн 294
+анс 294
+ин_ 294
+олу 294
+_я_ 293
+вия 293
+нят 293
+нна 292
+па_ 292
+тар 292
+лос 291
+тв_ 291
+доб 290
+ило 290
+ука 290
+мот 289
+реш 289
+иен 288
+ваю 287
+айт 286
+иод 286
+кул 286
+нты 286
+рве 286
+авн 285
+меж 285
+над 285
+оче 285
+рет 285
+_ур 284
+ети 284
+рук 284
+юча 284
+_ле 283
+_уд 283
+бле 283
+уры 283
+еща 282
+_лю 281
+але 281
+дал 279
+рак 279
+двы 278
+аро 277
+ноп 277
+_пи 276
+ибо 276
+нь_ 275
+оне 275
+риг 275
+нт_ 274
+рев 274
+ему 273
+изд 273
+кра 273
+пле 273
+_би 272
+обс 272
diff --git a/tika-core/src/main/resources/org/apache/tika/language/sk.ngp b/tika-core/src/main/resources/org/apache/tika/language/sk.ngp
new file mode 100644
index 0000000000..b9e6d8156c
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/sk.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+_pr 155897
+_po 137147
+_na 121520
+ch_ 116648
+_a_ 113592
+_v_ 111891
+na_ 91317
+om_ 89631
+_je 85847
+ej_ 81274
+_sa 79764
+ho_ 76408
+sa_ 74412
+je_ 71789
+_ro 71501
+ie_ 68043
+ova 64481
+ov_ 63563
+pre 62694
+ých 62491
+ku_ 59617
+tor 56395
+ne_ 56231
+_do 56170
+ia_ 51819
+_ob 50633
+_ne 49951
+ost 49668
+sta 48663
+_bo 48630
+_za 47920
+ou_ 47508
+kto 46980
+li_ 46972
+_st 46539
+né_ 45844
+la_ 45571
+nie 42336
+rok 42247
+to_ 41499
+_vy 40339
+bol 40215
+ko_ 39864
+pri 39599
+mi_ 39465
+ick 39399
+_ma 39211
+_kt 38807
+ého 38445
+al_ 36907
+ove 36896
+nsk 36874
+sti 36793
+_ko 36701
+_me 35723
+ky_ 35264
+van 35257
+str 34549
+ný_ 34542
+ka_ 34484
+lov 33726
+ani 33554
+nej 33137
+_sp 32541
+nov 32193
+_ve 32053
+oku 32041
+rov 31196
+val 30961
+lo_ 30783
+est 30773
+_ak 30008
+_od 29711
+pod 29618
+ali 29591
+_z_ 29143
+_vo 29126
+ti_ 28958
+kov 28917
+ako 28622
+_sl 27982
+eni 27515
+ná_ 27387
+ale 27291
+ast 27112
+ven 26964
+ol_ 26614
+_sú 26468
+sto 26243
+_te 26137
+eho 26093
+_to 25870
+_s_ 25732
+ým_ 25699
+red 25580
+ny_ 25518
+_kr 25224
+voj 25217
+nos 24871
+čas 24839
+ist 24693
+kon 24605
+slo 24576
+kej 24490
+men 24473
+va_ 24440
+_sv 24363
+_vý 24006
+_al 23634
+aj_ 23234
+_pa 23203
+cho 23096
+_ná 23064
+kom 23016
+och 22649
+ens 22498
+ran 22482
+že_ 22451
+do_ 22407
+sko 22197
+olo 21954
+rie 21845
+nýc 21748
+_mo 21706
+od_ 21560
+_aj 21552
+_ka 21397
+odn 21263
+pro 21257
+il_ 21221
+re_ 20805
+len 20695
+spo 20689
+_mi 20657
+_ni 20633
+ske 20477
+tov 20429
+_zá 20362
+vo_ 20310
+ent 20271
+oko 20266
+pol 20215
+edn 19959
+za_ 19816
+roz 19730
+ať_ 19717
+_re 19695
+ate 19638
+ovi 19395
+le_ 19235
+naj 19197
+pra 19125
+_ho 19120
+ci_ 19115
+sku 19100
+_ta 19024
+ich 18959
+de_ 18775
+dov 18361
+oli 18234
+ce_ 18126
+te_ 18101
+den 18010
+jú_ 17919
+ké_ 17915
+tvo 17913
+_tr 17899
+tic 17897
+lad 17806
+nia 17801
+ba_ 17779
+ach 17662
+dy_ 17569
+hod 17544
+sť_ 17509
+mu_ 17327
+_de 17298
+ter 17273
+_in 17196
+tom 17172
+tre 16933
+rod 16925
+uje 16923
+_le 16908
+ri_ 16860
+ta_ 16765
+tra 16747
+kla 16731
+dob 16721
+_že 16627
+ak_ 16608
+ria 16575
+_ch 16503
+ský 16443
+prí 16363
+ati 16354
+tro 16312
+dne 16226
+teľ 16223
+nom 16199
+ajú 16140
+ala 16133
+tav 16085
+_ce 16017
+_št 15873
+ili 15858
+ra_ 15837
+kýc 15807
+mie 15767
+áci 15740
+jed 15628
+ký_ 15578
+stv 15552
+ské 15524
+_no 15484
+ele 15482
+rav 15346
+ový 15340
+ami 15221
+ený 15196
+po_ 15019
+tie 14862
+zna 14852
+oro 14843
+rad 14777
+_ča 14773
+vie 14760
+tu_ 14748
+ní_ 14696
+ným 14673
+res 14626
+mes 14603
+pos 14525
+iac 14523
+_o_ 14521
+alo 14437
+néh 14435
+obe 14398
+_se 14288
+by_ 14202
+_vi 14193
+_so 14177
+ver 14165
+_ok 14068
+cký 14025
+rsk 13982
+_sk 13971
+veľ 13945
+kéh 13932
+iu_ 13903
+osť 13856
+ori 13773
+mer 13669
+iek 13635
+_si 13608
+ska 13575
+rom 13573
+orý 13571
+ola 13497
+tal 13458
+áln 13397
+_vš 13392
+eto 13392
+er_ 13380
+ká_ 13363
+_di 13353
+_ja 13342
+tri 13341
+ím_ 13337
+ovo 13295
+hov 13274
+ite 13215
+oré 13210
+ebo 13191
+lav 13191
+cie 13189
+kol 13160
+áva 13148
+mal 13111
+_pl 13095
+_os 12988
+_vz 12986
+ten 12941
+vod 12922
+ste 12848
+svo 12841
+nic 12836
+hra 12822
+jeh 12717
+cké 12707
+šie 12688
+eme 12680
+en_ 12648
+nik 12648
+ty_ 12647
+odo 12610
+ies 12593
+ené 12575
+ekt 12537
+oje 12519
+_dr 12512
+vor 12489
+_zo 12479
+ca_ 12427
+sú_ 12421
+_hr 12399
+las 12376
+ych 12326
+dno 12315
+ame 12249
+ádz 12247
+stu 12075
+pov 12062
+ene 12038
+ujú 12035
+ved 12029
+ré_ 12001
+eno 11965
+nes 11946
+era 11939
+ané 11908
+výc 11868
+dza 11857
+nu_ 11849
+prv 11822
+iel 11819
+iť_ 11807
+lne 11768
+me_ 11762
+_ži 11751
+chá 11736
+_an 11726
+_br 11651
+rat 11649
+da_ 11631
+okr 11629
+ren 11578
+med 11568
+tak 11554
+ové 11548
+cov 11490
+hla 11461
+ec_ 11424
+bra 11373
+lan 11353
+_k_ 11316
+prá 11222
+ve_ 11182
+_ra 11128
+ená 11116
+ret 11041
+ok_ 11000
+leb 10986
+vé_ 10975
+ero 10969
+dom 10959
+avi 10947
+sky 10834
+ern 10774
+lit 10730
+ave 10697
+júc 10691
+el_ 10666
+ení 10635
+kra 10624
+ore 10605
+ina 10573
+stn 10552
+eri 10538
+por 10515
+ii_ 10494
+_li 10493
+hor 10466
+nam 10413
+eli 10401
+_vl 10394
+očn 10394
+adn 10379
+tan 10374
+hád 10368
+aný 10367
+du_ 10307
+_ti 10297
+nou 10296
+bo_ 10285
+ans 10279
+_be 10247
+die 10221
+ými 10193
+_pe 10187
+poč 10177
+ade 10156
+ilo 10117
+ke_ 10113
+ede 10087
+cia 10081
+ry_ 10070
+ad_ 10066
+esk 10017
+ier 9992
+oto 9968
+ľa_ 9966
+vej 9880
+mba 9853
+áro 9848
+_hl 9817
+mat 9810
+oho 9802
+edz 9743
+vať 9707
+sla 9673
+_zn 9648
+rý_ 9640
+vá_ 9611
+nem 9607
+_ba 9545
+zem 9537
+iny 9531
+ovn 9514
+ráv 9493
+kre 9407
+_mb 9395
+sle 9364
+krá 9360
+nap 9344
+kým 9342
+nen 9338
+pom 9314
+dos 9298
+_zv 9283
+raj 9238
+poz 9207
+ric 9198
+edo 9133
+si_ 9116
+pla 9103
+via 9078
+pad 9043
+_bu 9027
+_by 9006
+_ke 8986
+sob 8973
+rne 8936
+tol 8888
+ová 8884
+obc 8864
+nú_ 8863
+ľov 8818
+dzi 8813
+_či 8794
+ejš 8772
+vat 8762
+vne 8760
+ník 8745
+nár 8733
+rob 8733
+ano 8723
+pot 8722
+_op 8704
+ách 8687
+čen 8684
+nto 8662
+hu_ 8654
+cha 8636
+es_ 8612
+eľk 8587
+eko 8579
+akt 8571
+ant 8544
+cke 8539
+dný 8518
+edi 8513
+_tu 8496
+obr 8495
+_ju 8464
+_má 8421
+eck 8398
+oby 8390
+vet 8371
+cel 8368
+ech 8342
+tup 8310
+ila 8306
+obn 8300
+ari 8256
+vý_ 8251
+_fi 8194
+aní 8182
+bec 8168
+ato 8160
+del 8124
+dia 8087
+lia 8084
+no_ 8078
+sve 8077
+ine 8066
+žen 8063
+čia 8062
+vsk 8040
+ovs 8036
+ada 8018
+odi 8004
+adi 8001
+zov 8001
+kou 7998
+iat 7992
+tel 7977
+din 7955
+man 7953
+and 7914
+vše 7912
+vys 7909
+_mu 7886
+ru_ 7885
+aro 7854
+iad 7851
+ane 7845
+led 7843
+eda 7833
+tat 7813
+ino 7811
+_ar 7805
+se_ 7784
+dru 7767
+rej 7763
+tar 7754
+sia 7728
+_dv 7720
+sov 7711
+ože 7709
+dné 7696
+rá_ 7671
+vin 7624
+udo 7620
+vom 7612
+stá 7596
+ado 7588
+isk 7555
+ode 7548
+osl 7542
+zač 7521
+_ci 7517
+per 7507
+zni 7476
+avn 7469
+bud 7468
+tva 7464
+ním 7457
+ere 7443
+us_ 7434
+tia 7427
+tsk 7404
+lin 7388
+_ri 7384
+kos 7381
+orá 7381
+nci 7372
+iet 7370
+rch 7365
+ole 7345
+anc 7339
+min 7317
+raz 7307
+rát 7253
+ezd 7249
+_sy 7240
+as_ 7236
+_pô 7222
+ora 7220
+ome 7219
+_ic 7217
+on_ 7204
+mov 7200
+vy_ 7189
+žia 7181
+for 7178
+elo 7173
+or_ 7162
+obi 7146
+rot 7137
+pou 7127
+vol 7104
+uto 7098
+avo 7083
+väč 7075
+äčš 7068
+vša 7053
+etk 7038
+oti 7032
+tát 7032
+ruh 6996
+šak 6970
+ek_ 6968
+obl 6956
+ská 6945
+lu_ 6934
+_fr 6933
+až_ 6922
+met 6919
+íva 6918
+lož 6909
+emi 6907
+orm 6905
+ien 6889
+tne 6878
+pok 6875
+lic 6864
+_ku 6832
+ivo 6832
+ava 6826
+mno 6810
+atr 6806
+spr 6804
+zi_ 6799
+zal 6798
+ber 6787
+ete 6786
+apr 6784
+lat 6777
+_až 6774
+eľo 6768
+iti 6760
+cen 6759
+nám 6743
+ied 6738
+šet 6728
+jej 6723
+tok 6721
+_čl 6715
+_už 6705
+_fa 6704
+_tv 6695
+_če 6695
+lie 6691
+par 6679
+ozo 6668
+_vr 6666
+rí_ 6650
+odu 6629
+ice 6619
+nut 6615
+tin 6611
+_or 6607
+ela 6604
+ni_ 6601
+orn 6591
+ris 6584
+ín_ 6576
+ly_ 6575
+ouž 6561
+ozn 6561
+omo 6547
+amo 6544
+úci 6538
+dal 6511
+isl 6488
+enc 6487
+_ab 6485
+mor 6483
+vi_ 6481
+_lo 6479
+ici 6474
+tej 6469
+tik 6456
+lom 6439
+yst 6431
+ian 6426
+pat 6420
+ril 6400
+_da 6397
+rac 6388
+trá 6379
+rýc 6366
+žív 6361
+em_ 6360
+ara 6356
+iná 6352
+ide 6326
+úča 6268
+am_ 6267
+uží 6262
+_zm 6231
+gra 6220
+zák 6217
+_ľu 6210
+nac 6184
+obo 6178
+ed_ 6169
+ram 6169
+rak 6163
+čný 6161
+ďal 6147
+rác 6144
+dok 6125
+vil 6125
+eve 6119
+jen 6115
+zná 6112
+vu_ 6108
+ích 6096
+olu 6085
+túr 6084
+les 6079
+ust 6072
+tí_ 6064
+má_ 6041
+jav 6040
+ner 6016
+ež_ 6006
+nad 6005
+ros 5996
+dan 5994
+so_ 5984
+áto 5981
+už_ 5969
+bli 5966
+_gr 5964
+bor 5960
+rit 5950
+čin 5934
+čne 5934
+rev 5913
+rem 5893
+asť 5886
+iez 5871
+iko 5860
+žit 5858
+pis 5854
+vlá 5854
+vla 5841
+atk 5837
+ini 5804
+mar 5794
+keď 5791
+tív 5789
+aná 5786
+_bi 5782
+dol 5779
+_ru 5775
+nep 5767
+_as 5761
+_čo 5760
+ana 5759
+uho 5756
+roj 5754
+kal 5753
+aci 5752
+_kl 5749
+spe 5749
+poj 5745
+_ha 5736
+eti 5733
+not 5732
+_mn 5726
+mož 5704
+_sm 5697
+los 5677
+ačn 5645
+eď_ 5637
+ika 5635
+art 5633
+ona 5631
+ľud 5618
+tis 5606
+nil 5601
+_ex 5599
+kat 5599
+pan 5597
+dvo 5554
+asn 5553
+etr 5544
+_hi 5542
+_tý 5530
+sil 5513
+fil 5502
+_i_ 5501
+ojn 5488
+kú_ 5478
+an_ 5475
+lek 5470
+čo_ 5465
+kup 5456
+my_ 5451
+_zl 5442
+tný 5442
+_la 5439
+ral 5439
+hol 5433
+níc 5433
+_ze 5426
+živ 5416
+fra 5411
+lád 5409
+nan 5406
+neh 5405
+reb 5396
+nyc 5391
+vyš 5390
+oni 5362
+dľa 5361
+ica 5356
+nti 5349
+_ďa 5342
+mic 5333
+_us 5330
+kul 5325
+jši 5324
+ívn 5305
+ožn 5304
+vid 5303
+obj 5300
+hvi 5289
+ese 5287
+ľad 5284
+lik 5280
+ito 5275
+ces 5274
+vov 5274
+inu 5272
+uni 5272
+_au 5270
+štá 5267
+rán 5266
+iež 5263
+kor 5251
+toč 5230
+čov 5230
+žil 5230
+ýva 5228
+cky 5223
+_fo 5211
+rep 5211
+tky 5199
+zo_ 5194
+cko 5184
+nte 5165
+pís 5165
+maj 5164
+odp 5164
+orí 5159
+pôs 5157
+ajv 5146
+čné 5144
+eži 5140
+um_ 5132
+ôso 5125
+ško 5116
+asi 5107
+erá 5104
+nal 5099
+noh 5098
+ha_ 5083
+vaj 5074
+vzn 5061
+ors 5059
+dis 5056
+kam 5036
+odľ 5020
+ojo 5019
+_vä 5013
+súč 5012
+int 5004
+ma_ 5003
+čno 4994
+_um 4993
+dpo 4983
+ciu 4974
+rel 4972
+ono 4971
+tné 4969
+môž 4966
+ápa 4962
+edy 4956
+ras 4950
+kci 4944
+roc 4943
+_he 4941
+zor 4938
+koc 4925
+záp 4923
+_hu 4913
+esi 4897
+oru 4874
+mus 4869
+_hv 4862
+nka 4860
+poh 4860
+eta 4857
+_ot 4856
+bez 4854
+be_ 4846
+kar 4843
+dst 4814
+náz 4814
+ľko 4814
+_rí 4799
+nak 4799
+sad 4798
+uch 4797
+tál 4791
+sam 4790
+oci 4786
+ému 4780
+ôvo 4779
+_su 4778
+kôr 4775
+tur 4774
+dro 4752
+ôr_ 4750
+lis 4747
+_ge 4737
+vek 4729
+iál 4726
+vým 4725
+hy_ 4709
+moc 4699
+ont 4699
+ovc 4675
+tým 4673
+rál 4665
+oča 4663
+bil 4656
+rst 4655
+ted 4655
+ena 4654
+aco 4648
+omi 4641
+jaz 4639
+oji 4636
+úze 4632
+che 4628
+_šk 4627
+nač 4627
+ron 4622
+hrá 4610
+ší_ 4599
+šte 4598
+arc 4597
+_zd 4596
+aji 4596
+omu 4581
+he_ 4579
+epo 4576
+ráľ 4574
+bla 4572
+ača 4569
+skô 4568
+iar 4567
+šíc 4567
+bie 4563
+árn 4563
+nas 4553
+jov 4550
+_mô 4546
+ík_ 4544
+vot 4540
+aby 4537
+ita 4536
+kan 4533
+ote 4533
+mos 4532
+iky 4530
+_kd 4529
+izm 4524
+iku 4503
+_dn 4498
+čši 4483
+epr 4481
+dil 4466
+ult 4461
+_sc 4455
+olí 4449
+til 4449
+upi 4447
+sch 4439
+ja_ 4435
+ťou 4433
+ang 4429
+let 4426
+kde 4424
+sne 4422
+íci 4421
+mec 4420
+výs 4402
+oži 4398
+rez 4391
+_dô 4390
+vit 4386
+_zr 4385
+nit 4376
+eľm 4370
+_úz 4369
+zen 4362
+hľa 4361
+ákl 4352
+iká 4345
+árs 4342
+com 4333
+onc 4325
+liv 4321
diff --git a/tika-core/src/main/resources/org/apache/tika/language/sl.ngp b/tika-core/src/main/resources/org/apache/tika/language/sl.ngp
new file mode 100644
index 0000000000..ceb3e9343c
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/sl.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+je_ 254248
+_je 175460
+_po 157653
+_pr 153889
+_na 146947
+na_ 123177
+in_ 113877
+_in 113626
+_za 108679
+_v_ 105174
+ih_ 97106
+ki_ 92808
+no_ 86653
+ja_ 85091
+_se 77030
+ni_ 76362
+ta_ 74384
+ne_ 71570
+_so 69646
+pre 69178
+ko_ 68876
+ga_ 63773
+li_ 61861
+_ko 61274
+em_ 61169
+jo_ 60836
+_le 60552
+sta 59864
+se_ 58235
+ost 57799
+so_ 56906
+ti_ 56256
+nje 54926
+la_ 53616
+let 52995
+ke_ 52660
+_ka 52035
+_ki 51309
+pri 51232
+_bi 51020
+_iz 50936
+ega 50289
+anj 49748
+_te 48980
+_do 46792
+di_ 44935
+_ve 44305
+_me 44109
+ka_ 44005
+il_ 43393
+_pa 42651
+bil 42312
+_ra 42223
+_ne 42023
+_ob 41725
+ali 41722
+_st 41402
+red 40850
+ija 40419
+_ta 40073
+eta 39957
+za_ 39902
+ov_ 39794
+ate 39283
+da_ 38884
+_de 38825
+er_ 37691
+al_ 37578
+ski 36890
+sti 36831
+_da 36544
+_od 36507
+del 36116
+lo_ 35619
+ove 34994
+ske 34973
+ter 34840
+raz 34746
+ova 34441
+nsk 34339
+ma_ 34279
+udi 33094
+nih 32076
+jen 32003
+lov 31555
+voj 31522
+nik 31499
+ji_ 31310
+ran 31287
+_ma 31099
+jem 30990
+nov 30857
+to_ 30412
+kat 30212
+_tu 30092
+eni 29985
+ori 29808
+men 29725
+sto 29672
+rij 29321
+_dr 29243
+pa_ 29163
+lje 28994
+str 28868
+en_ 28448
+_mo 28431
+lja 28205
+pos 28096
+_z_ 27873
+ani 27817
+_vo 27719
+rav 27380
+eli 27363
+pro 27329
+tud 26854
+ri_ 26093
+est 26042
+_re 25787
+lik 25711
+val 25540
+ego 25498
+nos 25415
+ist 24943
+ije 24902
+pod 24852
+_sl 24764
+sko 24588
+ila 24560
+_sv 24431
+van 24302
+_sp 24297
+va_ 24237
+ovi 24198
+ven 24181
+kov 24047
+por 23836
+ed_ 23644
+mi_ 23615
+el_ 23524
+zna 23509
+ičn 23399
+tem 23226
+ati 23225
+od_ 23218
+eno 23180
+pol 23079
+aj_ 23043
+ast 22905
+ili 22787
+tal 22700
+_kr 22621
+ime 22571
+le_ 22519
+po_ 22482
+eri 22230
+ju_ 22174
+om_ 22160
+med 22136
+avi 22104
+ora 22081
+_bo 22028
+naj 22023
+ot_ 21923
+elo 21921
+ema 21917
+lju 21876
+vo_ 21876
+_im 21781
+_nj 21706
+ve_ 21647
+pra 21642
+iko 21561
+lan 21521
+kot 21494
+nja 21463
+dru 21355
+ijo 21284
+gor 21263
+cij 21189
+teg 21149
+_to 21118
+_s_ 21054
+oli 21053
+vil 21011
+ene 20912
+vi_ 20900
+_tr 20846
+gra 20754
+jsk 20669
+tra 20502
+_la 20379
+ako 20315
+ena 20188
+_al 20104
+kih 20002
+kra 19922
+tan 19741
+elj 19717
+_si 19625
+_sk 19592
+edn 19589
+rad 19556
+_sa 19404
+ina 19337
+_ni 19252
+več 19104
+aje 19061
+slo 18658
+st_ 18647
+ral 18640
+nem 18521
+vel 18450
+im_ 18442
+jan 18400
+rat 18361
+ele 18351
+ev_ 18310
+mer 18285
+_vs 18048
+an_ 17950
+aln 17831
+_us 17830
+do_ 17794
+ajo 17770
+ala 17748
+jih 17579
+gov 17521
+ste 17511
+ska 17474
+ilo 17404
+neg 17379
+ika 17266
+ans 17152
+_en 17109
+nji 17030
+stv 16891
+eva 16874
+ira 16860
+_no 16825
+uje 16698
+ik_ 16558
+ome 16536
+te_ 16499
+tev 16473
+adi 16453
+olj 16392
+ar_ 16280
+kon 16213
+avn 16170
+vlj 16028
+ine 16020
+ane 16006
+tni 15839
+iti 15832
+ra_ 15796
+pov 15773
+ana 15735
+enj 15733
+iz_ 15711
+jev 15673
+_ce 15604
+tov 15518
+mo_ 15463
+ara 15442
+ato 15430
+tak 15418
+ank 15343
+edi 15339
+nas 15262
+tro 15252
+_os 15220
+odn 15154
+ame 15153
+čin 15104
+zaj 15089
+_čl 14978
+pom 14862
+_gl 14758
+las 14724
+aja 14713
+ovo 14692
+_o_ 14611
+olo 14555
+tav 14517
+vet 14495
+ano 14387
+_ga 14342
+iji 14320
+ini 14240
+imi 14231
+ca_ 14221
+iki 14210
+ent 14180
+tor 14180
+ogo 14169
+vni 14162
+aci 14114
+_ro 14109
+dob 14102
+ela 14020
+prv 13986
+čni 13940
+tre 13907
+_vi 13899
+svo 13875
+lni 13847
+vse 13810
+_up 13796
+še_ 13782
+_št 13712
+evi 13671
+eti 13669
+_gr 13647
+dno 13579
+nij 13550
+gla 13491
+nim 13473
+_mi 13429
+dni 13314
+oma 13289
+bi_ 13273
+ite 13266
+ari 13239
+jeg 13230
+ver 13226
+rug 13224
+nan 13126
+ede 13113
+ovn 13029
+ust 13013
+sve 12956
+ino 12871
+odo 12864
+ce_ 12845
+mes 12838
+led 12830
+rsk 12823
+nar 12810
+man 12806
+nam 12768
+tri 12761
+_pe 12712
+rej 12706
+_br 12660
+čla 12632
+rje 12616
+pot 12615
+de_ 12604
+ava 12598
+lad 12591
+dal 12536
+_go 12514
+_zn 12487
+_lj 12468
+met 12403
+ah_ 12402
+etn 12318
+re_ 12314
+eka 12311
+rab 12302
+alo 12278
+mor 12241
+ens 12239
+nek 12227
+on_ 12225
+raj 12191
+keg 12186
+eje 12182
+kol 12152
+rem 12080
+blj 12075
+_še 12003
+odi 12000
+eto 11986
+_vr 11968
+ita 11907
+tu_ 11905
+upo 11885
+ose 11836
+_pl 11830
+rja 11818
+ški 11732
+ojn 11718
+rod 11693
+dan 11674
+ica 11590
+avl 11535
+bol 11509
+bli 11497
+am_ 11491
+tel 11456
+kar 11449
+_be 11446
+pis 11401
+rim 11394
+čas 11379
+ale 11378
+če_ 11318
+nic 11300
+spo 11295
+eve 11294
+_op 11285
+jal 11282
+eda 11239
+mu_ 11236
+oko 11221
+lin 11215
+alj 11191
+ima 11161
+išk 11151
+vno 11148
+ole 11129
+_an 11122
+bra 11115
+oto 11086
+kem 11068
+ci_ 11061
+lav 11056
+eme 11036
+vod 11027
+oda 11020
+rni 10998
+arj 10997
+sku 10965
+tič 10955
+ada 10939
+_ba 10931
+dov 10926
+dnj 10923
+tno 10871
+čne 10835
+or_ 10833
+vez 10809
+mat 10732
+es_ 10699
+oje 10699
+lj_ 10655
+lah 10616
+nej 10592
+dar 10557
+šte 10546
+ave 10545
+amo 10487
+čno 10478
+sam 10431
+dil 10388
+ore 10383
+ese 10375
+rit 10311
+ice 10305
+ijs 10303
+era 10287
+spr 10138
+oči 10116
+_di 10086
+ved 10063
+_ja 10059
+kom 9989
+vin 9947
+_ok 9943
+ške 9940
+ško 9940
+top 9926
+sed 9914
+ami 9896
+ins 9864
+ače 9858
+var 9844
+ezn 9839
+obl 9818
+gle 9817
+_ju 9811
+hod 9777
+oja 9739
+dol 9734
+ris 9732
+et_ 9730
+ike 9713
+iva 9702
+kri 9688
+čen 9661
+jav 9634
+kup 9603
+nal 9602
+_že 9591
+nke 9554
+ode 9554
+ote 9508
+ahk 9499
+oro 9471
+ere 9380
+ek_ 9369
+sre 9355
+ren 9335
+_jo 9327
+nap 9263
+hko 9256
+ej_ 9246
+obi 9240
+lij 9199
+_fr 9146
+ono 9137
+_fi 9097
+_ča 9095
+log 9095
+seb 9086
+lji 9074
+bo_ 9025
+and 9015
+ona 8967
+ejo 8935
+anc 8915
+tar 8880
+nad 8879
+drž 8866
+stn 8854
+_zg 8845
+_ze 8836
+eč_ 8814
+nač 8807
+rst 8784
+ant 8759
+den 8756
+ros 8728
+tek 8721
+per 8716
+ro_ 8699
+mar 8691
+živ 8684
+nom 8675
+tur 8659
+adn 8658
+ril 8626
+_dv 8608
+res 8581
+pad 8522
+aro 8460
+ici 8429
+rek 8426
+nju 8419
+_zd 8415
+jud 8405
+_sr 8391
+rža 8375
+zar 8372
+_oz 8368
+nes 8360
+_ji 8352
+išč 8352
+sa_ 8341
+oti 8338
+lit 8337
+si_ 8335
+ete 8333
+ern 8330
+žav 8305
+tvo 8291
+omo 8272
+zem 8272
+obr 8256
+rep 8252
+_lo 8246
+_ti 8218
+ekt 8218
+_pi 8183
+_va 8164
+ozn 8144
+_li 8137
+_ar 8136
+dij 8116
+nav 8079
+rot 8076
+iln 8064
+ku_ 8060
+rom 8059
+ejš 8058
+_če 8056
+rev 8023
+tva 8011
+zap 8008
+rov 7977
+at_ 7961
+ij_ 7959
+oji 7947
+sno 7937
+isa 7920
+vne 7912
+dne 7906
+ben 7887
+be_ 7881
+oni 7850
+žen 7843
+reb 7838
+moč 7828
+emi 7815
+lno 7800
+sla 7800
+roč 7787
+čil 7763
+spe 7726
+sem 7714
+zve 7713
+jub 7702
+erj 7672
+me_ 7666
+nil 7655
+_or 7603
+nat 7593
+zač 7586
+msk 7547
+lič 7545
+iso 7536
+ubl 7500
+god 7459
+oče 7457
+eh_ 7450
+opi 7440
+azl 7437
+_ži 7431
+_hi 7419
+kor 7400
+otr 7391
+osl 7382
+tih 7354
+kan 7350
+eds 7330
+mel 7319
+emo 7315
+par 7311
+nda 7307
+izv 7305
+tne 7274
+oka 7241
+lek 7237
+dst 7228
+ruž 7191
+ade 7188
+min 7184
+fra 7182
+gos 7175
+plo 7174
+_vz 7150
+vor 7149
+ss_ 7119
+kal 7110
+zgo 7088
+ogr 7087
+riš 7081
+ec_ 7080
+orj 7080
+orn 7076
+_um 7064
+apo 7018
+rvi 7005
+_zv 6991
+ata 6978
+uni 6968
+cel 6965
+že_ 6960
+ram 6958
+izi 6934
+ero 6917
+lu_ 6909
+ge_ 6907
+arn 6878
+azi 6877
+ars 6868
+zel 6844
+nst 6835
+daj 6826
+ive 6818
+lne 6814
+pog 6807
+jer 6801
+tik 6799
+niš 6784
+zli 6777
+emb 6767
+nis 6755
+ron 6754
+poz 6750
+aka 6746
+loč 6743
+ret 6739
+rno 6738
+etu 6736
+go_ 6728
+tol 6706
+rne 6701
+nci 6699
+ča_ 6693
+isk 6687
+jši 6687
+sle 6632
+sil 6630
+avo 6615
+ba_ 6588
+ile 6588
+uss 6588
+sod 6584
+šči 6583
+bor 6581
+ner 6581
+ašk 6577
+mal 6565
+nce 6557
+_ri 6546
+mlj 6541
+tin 6533
+_kl 6530
+_ke 6528
+pla 6515
+jaj 6512
+ion 6510
+_sm 6507
+eza 6496
+are 6495
+_ge 6472
+ten 6469
+sov 6465
+ozi 6444
+dra 6437
+sel 6432
+sne 6429
+tve 6385
+zda 6368
+rog 6358
+du_ 6338
+rez 6337
+odp 6323
+zra 6322
+asn 6320
+otn 6319
+sli 6317
+eko 6316
+gan 6305
+_mu 6297
+abl 6296
+_am 6272
+itv 6254
+gij 6240
+ope 6228
+end 6218
+av_ 6214
+not 6200
+ang 6198
+ton 6195
+zij 6186
+kje 6185
+_av 6176
+bno 6167
+opa 6163
+cer 6161
+šče 6139
+ugi 6138
+kla 6137
+igr 6136
+obe 6128
+ide 6122
+obn 6121
+rop 6120
+dom 6119
+kaj 6100
+emu 6088
+ber 6084
+vit 6082
+ak_ 6067
+tom 6058
+jet 6051
+rva 6018
+jni 6006
+_kj 6003
+_el 6002
+ons 5999
+ob_ 5973
+čel 5971
+nak 5963
+nu_ 5957
+reg 5934
+les 5933
+zni 5924
+lic 5917
+kro 5908
+din 5907
+_ig 5900
+_ur 5897
+maj 5890
+asi 5882
+mem 5876
+zan 5864
+_ha 5854
+jno 5842
+enc 5823
+gen 5816
+len 5812
+ad_ 5805
+pin 5798
+eči 5787
+opo 5780
+hov 5779
+kim 5767
+rih 5765
+nte 5760
+eml 5758
+okr 5755
+nti 5731
+art 5725
+očj 5713
+pon 5703
+tis 5690
+taj 5679
+co_ 5661
+šča 5649
+dat 5632
+su_ 5627
+gi_ 5593
+naš 5591
+ogi 5587
+tiv 5587
+ivi 5578
+zav 5555
+net 5552
+cev 5546
+rin 5544
+ezi 5540
+ase 5536
+rik 5517
+lem 5513
+rip 5507
+zad 5505
+obo 5487
+niz 5485
+_ev 5474
+nta 5468
+sev 5454
+mno 5447
+esa 5427
+bni 5418
+odr 5414
+jez 5409
+mag 5407
+rič 5407
+vol 5406
+omi 5381
+jej 5369
+nit 5360
+una 5360
+vih 5354
+klj 5344
+asl 5343
+ači 5343
+upi 5339
+lom 5335
+či_ 5323
+san 5322
+ado 5308
+rok 5303
+sni 5303
+nog 5301
+ečj 5292
+rti 5285
+ses 5281
+ugo 5279
+til 5270
+bri 5262
+ume 5262
+ogl 5260
+epr 5245
+čan 5239
+leg 5227
+tok 5221
+alc 5216
+ešk 5215
+iri 5212
+pet 5212
+as_ 5205
+ru_ 5205
+reč 5199
+vaj 5176
+zik 5174
+zat 5170
+ple 5169
+_he 5160
+osk 5159
+oln 5152
+_vl 5145
+bel 5145
+son 5135
+zvo 5132
+onc 5130
+bit 5129
+zdr 5121
+tsk 5107
+vij 5101
+vir 5097
+dos 5095
+iza 5095
+imo 5089
+rel 5075
+rač 5050
+očn 5049
+ška 5048
+ard 5046
+azv 5044
+api 5027
+ši_ 5020
+žno 5019
+lat 5015
+bre 5014
+eja 5007
+esn 4997
+for 4975
+gre 4969
+vis 4969
+vid 4956
+etr 4949
+oča 4948
+dro 4947
+izr 4945
+ivn 4940
+zah 4931
+lsk 4928
+kaz 4921
+jim 4906
+vla 4892
+etj 4879
+pok 4878
+vrs 4868
+_is 4866
+rid 4861
+ker 4860
+ebn 4856
+boj 4855
+rib 4853
+lko 4839
+nič 4832
+bar 4817
+vsa 4803
+oj_ 4800
+is_ 4796
+ure 4795
+onč 4792
+rak 4789
+cen 4788
+saj 4750
+zde 4747
+rob 4738
+ito 4736
+vsk 4736
+loš 4731
+ial 4723
+žel 4719
+rož 4716
+pop 4712
+vna 4707
+čet 4700
+_un 4689
+gal 4688
+uži 4683
+evr 4680
+vro 4676
+ras 4674
+ico 4671
+zas 4664
+abi 4655
+obs 4644
+ing 4640
+org 4634
+jst 4633
+_ca 4628
+_mn 4615
+kop 4590
+čev 4570
+ago 4560
+rna 4556
+enu 4554
+opr 4549
+tru 4549
+_co 4548
+ces 4542
+_ru 4535
+_wi 4523
+_bl 4513
+elu 4508
+_ot 4501
+rma 4501
+izm 4489
+_ku 4484
+aga 4469
+mon 4454
+zal 4450
+zme 4443
+_fo 4439
+nj_ 4422
+mov 4419
+izd 4417
+oga 4417
+zvi 4405
+ojs 4403
+poj 4402
diff --git a/tika-core/src/main/resources/org/apache/tika/language/sv.ngp b/tika-core/src/main/resources/org/apache/tika/language/sv.ngp
new file mode 100644
index 0000000000..77336f973b
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/sv.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+en_ 92283
+_de 80300
+et_ 65529
+tt_ 62645
+för 61570
+er_ 59169
+att 50169
+_fö 49849
+om_ 48354
+_at 44382
+det 42846
+de_ 39705
+_oc 38975
+ar_ 35734
+ch_ 35025
+och 35007
+ing 34078
+ör_ 32266
+_vi 32126
+_in 31054
+_i_ 30495
+nde 30447
+är_ 29798
+and 28993
+som 28602
+_so 28589
+an_ 27688
+ter 27216
+_me 27166
+na_ 27106
+den 26707
+ll_ 25984
+ra_ 25362
+ill 25097
+_av 24638
+ska 24452
+_en 23817
+_ko 23771
+ion 23550
+_ti 21676
+lig 20583
+av_ 20481
+ag_ 20283
+_är 20198
+te_ 20181
+til 20149
+ta_ 19519
+_ha 19362
+nte 19169
+med 19136
+gen 19065
+ka_ 18825
+ett 18812
+_om 18718
+isk 18716
+nin 18697
+_fr 18084
+one 17519
+rna 17506
+kom 17054
+_be 17045
+men 15944
+lle 15910
+_st 15861
+ga_ 15640
+vi_ 15539
+der 15492
+_på 15488
+ng_ 15337
+int 15304
+all 15285
+omm 15031
+_sk 14735
+_ja 14591
+jag 14120
+_ut 14114
+på_ 13913
+era 13666
+ern 13636
+la_ 13405
+ens 13249
+_an 12925
+ste 12832
+ed_ 12717
+ätt 12682
+as_ 12589
+var 12560
+har 12468
+het 12390
+nen 12157
+ent 12063
+man 11899
+tta 11826
+_va 11679
+sta 11672
+lla 11340
+_re 11095
+ns_ 10879
+_et 10857
+rin 10843
+sam 10801
+ler 10711
+ver 10695
+_eu 10678
+ara 10628
+gar 10424
+frå 10330
+örs 10214
+ten 10210
+tio 10160
+ell 10020
+ade 10013
+mis 10012
+kan 10011
+iga 9922
+änd 9862
+gt_ 9849
+iss 9835
+nge 9731
+ans 9689
+uro 9647
+eur 9634
+upp 9482
+re_ 9413
+tet 9405
+igt 9403
+ati 9374
+rop 9343
+ete 9336
+_sa 9328
+_ta 9317
+ran 9232
+bet 9156
+_mi 9142
+_pr 9059
+vil 9005
+_al 8984
+ser 8942
+_ge 8925
+_ka 8909
+kon 8906
+nna 8905
+mer 8891
+ig_ 8722
+tal 8694
+lan 8592
+så_ 8546
+_si 8518
+sio 8464
+nom 8453
+kti 8364
+ner 8341
+ssi 8330
+_må 8289
+_un 8270
+nga 8253
+und 8222
+mmi 8147
+_ma 8124
+eri 8035
+dra 8026
+äll 7879
+mme 7730
+pro 7636
+del 7570
+_he 7543
+ngs 7534
+_up 7421
+ram 7421
+lag 7355
+iti 7286
+are 7203
+år_ 7127
+_sä 7070
+nsk 7067
+kt_ 6912
+ndr 6806
+öra 6805
+ts_ 6795
+inn 6771
+lit 6720
+ghe 6642
+öre 6619
+ren 6617
+mma 6569
+or_ 6513
+oli 6430
+str 6412
+stä 6279
+des 6274
+igh 6272
+ekt 6267
+on_ 6265
+tig 6264
+ger 6236
+råd 6233
+_så 6232
+res 6179
+rt_ 6110
+åde 6100
+da_ 6078
+gan 6048
+ikt 6038
+at_ 5991
+ord 5972
+par 5959
+när 5953
+ket 5932
+ess 5929
+_nä 5923
+lt_ 5910
+han 5901
+rät 5845
+tan 5820
+tte 5817
+yck 5797
+vis 5767
+råg 5743
+ers 5736
+min 5724
+tiv 5706
+kal 5701
+ets 5681
+lut 5664
+tat 5598
+dan 5584
+ope 5564
+els 5555
+ort 5546
+amm 5543
+_gr 5535
+sa_ 5532
+_se 5458
+fra 5457
+eis 5411
+pei 5407
+ad_ 5385
+kli 5384
+tni 5379
+sla 5321
+lar 5310
+ala 5232
+sät 5222
+kap 5192
+st_ 5183
+ull 5175
+_vä 5169
+_hä 5147
+dig 5135
+öve 5130
+rbe 5119
+_fi 5113
+nst 5109
+for 5107
+pol 5074
+åst 5071
+err 5063
+ock 5022
+_fa 5009
+cke 4955
+_po 4933
+eme 4910
+reg 4910
+ker 4909
+sku 4859
+_dä 4855
+där 4845
+_tr 4840
+ån_ 4838
+_än 4827
+rat 4804
+nat 4801
+_rä 4796
+mås 4795
+_lä 4786
+ång 4783
+eda 4776
+ame 4772
+tis 4753
+fte 4746
+red 4726
+_ve 4714
+_öv 4703
+arl 4688
+arb 4678
+ssa 4678
+tor 4674
+rde 4667
+rån 4665
+fin 4648
+lin 4640
+tra 4617
+_pa 4577
+tar 4563
+ist 4547
+kul 4539
+gra 4511
+llt 4502
+_mo 4481
+nd_ 4474
+sen 4473
+el_ 4462
+gör 4446
+rst 4441
+ant 4437
+ågo 4436
+akt 4433
+ige 4416
+ate 4401
+in_ 4386
+ins 4372
+le_ 4362
+nda 4362
+tid 4356
+art 4355
+erk 4323
+rar 4320
+vår 4309
+cks 4306
+_li 4305
+uta 4280
+mar 4261
+_ar 4255
+ot_ 4246
+bar 4193
+lem 4186
+ven 4171
+_ef 4168
+tro 4166
+ast 4140
+_åt 4135
+slu 4129
+nse 4125
+gru 4121
+ilj 4093
+mot 4078
+åga 4074
+arn 4048
+eta 4043
+enn 4028
+uni 3995
+age 3988
+stå 3981
+nt_ 3967
+rla 3967
+tik 3967
+her 3953
+kså 3944
+ss_ 3943
+äns 3930
+end 3927
+_my 3922
+_nå 3920
+_fo 3888
+ite 3868
+rr_ 3864
+rik 3852
+kla 3846
+_or 3812
+rad 3809
+sto 3809
+lam 3808
+tli 3805
+rsl 3802
+pa_ 3782
+_ba 3779
+vet 3764
+nne 3763
+tur 3754
+eno 3723
+_vå 3721
+kte 3707
+ntr 3705
+tag 3701
+bes 3697
+nad 3692
+_di 3686
+ras 3686
+nio 3664
+ma_ 3649
+per 3634
+någ 3630
+ege 3623
+ike 3593
+ärd 3592
+pen 3589
+_sy 3577
+opa 3577
+nis 3563
+rli 3552
+sig 3542
+sko 3520
+omr 3512
+sti 3512
+hål 3488
+åll 3483
+änn 3482
+ret 3462
+_få 3459
+ndl 3449
+get 3439
+kni 3429
+em_ 3427
+vid 3425
+stö 3421
+län 3415
+lik 3397
+nta 3392
+_kr 3390
+oll 3389
+_la 3348
+_er 3339
+ons 3336
+tän 3336
+nas 3325
+utv 3323
+_ku 3321
+ken 3314
+ja_ 3307
+id_ 3299
+ckl 3297
+est 3287
+lse 3286
+led 3283
+eko 3279
+eft 3270
+ika 3263
+es_ 3262
+ela 3258
+myc 3242
+gem 3236
+tre 3234
+vän 3225
+ris 3224
+eck 3208
+mel 3202
+män 3196
+kra 3192
+am_ 3190
+orm 3160
+se_ 3148
+ndi 3142
+_gä 3141
+hel 3137
+vär 3137
+mrå 3136
+sva 3110
+al_ 3108
+täl 3102
+_el 3086
+här 3084
+_gö 3080
+_ny 3073
+ats 3072
+_ni 3061
+nar 3055
+ber 3052
+dri 3045
+vik 3029
+trä 3026
+uts 3023
+alm 3022
+_bl 3017
+_da 3010
+lma 3009
+let 2987
+sst 2979
+ina 2977
+dni 2944
+run 2936
+far 2891
+mil 2887
+sse 2872
+ena 2866
+tve 2859
+rit 2850
+_le 2847
+sin 2840
+nsa 2834
+gäl 2833
+_br 2824
+sk_ 2818
+rek 2799
+ilk 2789
+_rå 2787
+vec 2782
+itt 2780
+ono 2778
+läg 2762
+ttn 2759
+edl 2751
+omi 2747
+äve 2747
+kri 2745
+pp_ 2742
+aga 2731
+änk 2726
+org 2723
+is_ 2720
+dli 2704
+rän 2704
+nkt 2703
+rfö 2698
+dag 2693
+_na 2692
+_os 2689
+tti 2689
+ske 2672
+amt 2669
+tvi 2662
+rag 2654
+avs 2645
+beh 2644
+ial 2634
+ino 2630
+mfö 2609
+ede 2604
+spe 2596
+nns 2591
+lja 2581
+ni_ 2576
+bör 2570
+dle 2568
+sat 2568
+dem 2561
+ari 2559
+ive 2558
+bli 2543
+esl 2531
+lis 2528
+egi 2521
+ror 2519
+kun 2514
+unk 2514
+pri 2508
+inf 2498
+va_ 2495
+bor 2493
+oss 2489
+_ty 2484
+it_ 2483
+apa 2476
+gär 2455
+sit 2400
+ski 2398
+kar 2397
+_mö 2394
+_bö 2393
+_ek 2391
+_äv 2384
+_år 2384
+gor 2373
+öst 2373
+ems 2371
+_gå 2356
+ur_ 2356
+ind 2343
+nu_ 2339
+rsk 2337
+rig 2336
+rso 2335
+ali 2328
+kor 2324
+_hu 2303
+kat 2301
+sys 2298
+iv_ 2293
+lls 2289
+kna 2286
+mån 2279
+sfö 2276
+skt 2275
+rre 2265
+ier 2263
+ott 2263
+töd 2262
+mst 2258
+ini 2253
+ere 2252
+ark 2248
+ke_ 2245
+pun 2245
+nan 2242
+_mä 2240
+lke 2233
+vad 2232
+ägg 2226
+örd 2219
+ise 2218
+rga 2215
+_bi 2211
+rs_ 2207
+isa 2206
+nka 2206
+jäl 2204
+gga 2199
+soc 2197
+_nu 2196
+jli 2196
+ppe 2195
+öjl 2195
+tas 2191
+_ex 2190
+gsf 2190
+möj 2186
+ruk 2179
+ida 2176
+oci 2175
+nel 2160
+rkl 2158
+cia 2151
+iva 2144
+_ra 2134
+rer 2133
+val 2133
+_sl 2132
+fat 2119
+_pe 2116
+säk 2109
+säg 2103
+ik_ 2095
+spr 2090
+ttr 2089
+rka 2083
+gån 2079
+len 2077
+ift 2076
+_ho 2072
+ytt 2071
+ck_ 2062
+ut_ 2061
+äng 2060
+uti 2041
+ärf 2036
+itu 2029
+ire 2025
+pas 2022
+kän 2011
+ukt 2011
+bil 2005
+fal 2005
+nor 2002
+elt 1998
+ann 1994
+cka 1993
+tyd 1989
+rup 1981
+äga 1980
+än_ 1978
+tru 1977
+dir 1975
+unn 1974
+nti 1972
+_tv 1969
+kil 1969
+kol 1959
+örb 1953
+jor 1948
+rti 1938
+tsl 1937
+ori 1932
+cen 1929
+ffe 1927
+_sp 1924
+tem 1919
+väl 1919
+mss 1917
+dam 1912
+ont 1909
+_kv 1908
+vin 1904
+ert 1903
+emo 1897
+erh 1896
+_hö 1894
+tad 1888
+rog 1884
+_ri 1881
+läm 1881
+ära 1880
+_sj 1878
+nli 1874
+omf 1873
+tts 1868
+ble 1865
+por 1861
+ogr 1860
+_ju 1854
+dar 1849
+ide 1841
+ust 1828
+mig 1827
+nfö 1814
+teg 1814
+_lå 1811
+skr 1810
+ge_ 1802
+_fl 1790
+pek 1784
+ämn 1784
+ntl 1781
+etä 1779
+rhe 1773
+ämp 1767
+met 1761
+sol 1760
+idi 1750
+dfö 1749
+gon 1749
+leg 1743
+vat 1741
+rol 1740
+mål 1737
+åtg 1732
+tgä 1726
+ktu 1723
+ljö 1704
+ien 1703
+amh 1694
+nni 1687
+äke 1687
+ånd 1687
+syn 1686
+ape 1685
+_bo 1682
+erl 1672
+_sv 1666
+pla 1665
+obl 1661
+_go 1660
+nal 1657
+roc 1648
+_do 1643
+tån 1643
+gni 1641
+åte 1640
+då_ 1635
+vå_ 1635
+_ol 1624
+_kl 1621
+opp 1621
+pre 1621
+hän 1619
+rma 1619
+dis 1618
+sli 1618
+gio 1615
+tsk 1613
+oce 1612
+kta 1611
+spo 1608
+ani 1597
+sni 1596
+lös 1593
+rob 1590
+fri 1589
+ang 1584
+rme 1577
+onk 1575
+rkn 1572
+_kä 1566
+onä 1565
+raf 1563
+_fu 1556
+nit 1553
+dla 1548
+sak 1548
+_te 1545
+lat 1541
+ale 1539
+nya 1531
+täm 1531
+yss 1528
+efo 1523
+_hå 1522
+olk 1518
+atu 1515
+sek 1513
+ona 1511
+tri 1511
+gre 1507
+åda 1504
+rdn 1503
+_rö 1502
+got 1502
+krä 1488
+nsv 1486
+ult 1484
+ya_ 1483
+tst 1481
+ume 1480
+kot 1478
+rdf 1477
+tit 1477
+ags 1473
+mli 1466
+hur 1465
+alt 1464
+_of 1459
+mat 1454
+få_ 1453
+pel 1449
+lad 1447
+ora 1446
+ack 1440
+sky 1439
+_to 1438
+liv 1438
+nhe 1438
+åra 1438
+try 1433
+yst 1432
+möt 1428
+äck 1428
+ärk 1427
+nsi 1426
+räd 1426
+god 1425
+ank 1420
+får 1415
+ost 1415
+ute 1407
+öka 1407
+sjä 1405
+vs_ 1405
+häl 1403
+lni 1401
+örh 1397
+egr 1389
+mna 1388
+öte 1379
+_ga 1375
+ha_ 1375
+lde 1375
+mti 1375
+rte 1375
+_eg 1374
+lta 1373
+rva 1370
+_då 1364
+ölj 1364
+rts 1361
+nke 1359
+ört 1357
+tin 1356
+ärs 1355
+van 1353
+edb 1352
+väg 1348
+ämm 1348
+orn 1347
+tör 1347
+edr 1344
+beg 1339
+rot 1335
+ful 1334
+älv 1331
+lln 1330
+bef 1329
+tjä 1328
+sid 1326
+ana 1323
+föl 1323
+sel 1320
+låt 1319
+nvä 1318
+ild 1317
+gst 1312
+mpe 1310
+enh 1308
+etr 1307
+inr 1307
+amf 1306
+enl 1306
+gna 1305
+mit 1305
+rös 1304
+bat 1303
+äge 1303
+ore 1301
+utt 1301
+ral 1300
+sök 1300
+je_ 1299
+las 1299
+sik 1295
+nds 1292
+tif 1292
+_pl 1289
+ors 1287
+jän 1285
+tsä 1280
+stn 1279
+ivi 1278
+åt_ 1274
+sna 1271
+örv 1270
+mt_ 1268
+dbo 1262
+äst 1262
+llv 1259
+_no 1257
+sär 1257
+deb 1256
+esu 1256
+räv 1253
+riv 1251
+fis 1248
+fol 1247
+pos 1247
+änt 1244
+kos 1243
+_lö 1242
+byg 1241
+eba 1241
+tår 1235
+rod 1233
+rn_ 1231
+app 1226
+nci 1226
+ung 1226
+ode 1224
+ygg 1224
+_nö 1223
+oms 1222
+ama 1219
+fek 1217
+_tu 1215
+grä 1212
+sis 1209
+ehö 1206
+går 1206
+ilt 1202
+cip 1200
+fle 1200
+inc 1199
+lst 1198
+örf 1197
+lsä 1196
+rör 1194
+tse 1193
+dom 1191
+fer 1191
+_dr 1189
+kad 1186
+kur 1186
+tac 1185
+bät 1184
+kel 1184
+näm 1183
+lva 1179
+vit 1178
+olu 1175
+eu_ 1173
+ick 1171
+anv 1167
+årt 1165
+ls_ 1162
+eff 1158
+pap 1158
+aft 1156
+ots 1154
+esk 1153
+rel 1152
+ppm 1151
+_bä 1149
+egl 1147
+kas 1147
+urr 1145
+erv 1144
+frä 1144
+hög 1142
+nno 1141
+um_ 1140
+ars 1138
+gis 1138
+_pu 1132
+såd 1131
+okr 1130
+nsl 1123
+rfa 1116
+mor 1115
+ane 1114
+_fe 1112
+hör 1111
+kto 1110
+fru 1109
+mok 1098
+bek 1097
+_sn 1096
+ele 1096
+nku 1096
+ågr 1095
+_hi 1094
+örl 1091
+das 1090
+tom 1090
+ref 1088
+rdr 1087
+ton 1086
diff --git a/tika-core/src/main/resources/org/apache/tika/language/th.ngp b/tika-core/src/main/resources/org/apache/tika/language/th.ngp
new file mode 100644
index 0000000000..e5e6435e2f
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/th.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+การ 38686
+_อง 13941
+_าง 12827
+ประ 12609
+_าน 11182
+ของ 11179
+วาม 10809
+เป_ 9899
+ได_ 9380
+_กา 9046
+ควา 9007
+ให_ 8846
+และ 8769
+_น_ 8413
+นท_ 7353
+_ม_ 7302
+นกา 7139
+ารเ 6906
+_ร_ 6515
+เร_ 6479
+งกา 6385
+_อน 6258
+อย_ 6124
+งาน 6114
+_กษ 6073
+_ต_ 5948
+จาก 5853
+_ท_ 5787
+หน_ 5761
+ไม_ 5626
+_นท 5562
+_อย 5562
+ใช_ 5524
+_ส_ 5399
+_นเ 5255
+ระเ 5006
+บร_ 4949
+_าเ 4868
+งท_ 4844
+ทาง 4801
+กษา 4778
+หร_ 4774
+_วย 4768
+_นก 4563
+_าร 4511
+าร_ 4500
+เพ_ 4448
+_ว_ 4432
+_อก 4352
+เก_ 4288
+_งเ 4199
+เง_ 4183
+องก 4172
+_ก_ 4170
+าน_ 4066
+_จ_ 3832
+_าห 3809
+เด_ 3759
+รรม 3730
+_ยน 3709
+_ด_ 3706
+ามา 3630
+_าย 3625
+เล_ 3586
+_อม 3585
+คร_ 3584
+_วน 3573
+กล_ 3556
+นต_ 3495
+ารท 3449
+ระช 3447
+_คว 3431
+หล_ 3431
+ะเท 3430
+มาก 3427
+เทศ 3357
+าท_ 3332
+_อ_ 3282
+_บ_ 3237
+เม_ 3180
+_าม 3172
+_บร 3138
+_าใ 3087
+_ใน 3053
+_ค_ 3041
+_าว 3010
+_ปร 2961
+งน_ 2958
+_ยง 2951
+ปร_ 2937
+ในก 2925
+กต_ 2920
+_ป_ 2899
+_นอ 2897
+กว_ 2894
+มาร 2893
+ากา 2890
+าต_ 2890
+_งก 2869
+ารส 2868
+_ย_ 2862
+อร_ 2845
+_ยว 2832
+_าก 2829
+ภาพ 2810
+เข_ 2799
+เน_ 2789
+ามเ 2758
+าม_ 2755
+_นต 2750
+รท_ 2723
+เช_ 2712
+_อเ 2696
+ตร_ 2678
+นส_ 2671
+ารถ 2650
+ะชา 2649
+ารป 2631
+บกา 2625
+งส_ 2616
+กระ 2614
+ระบ 2613
+ะด_ 2609
+สร_ 2591
+องเ 2586
+ไทย 2580
+_พ_ 2564
+_ตร 2558
+รก_ 2549
+าก_ 2549
+_จะ 2539
+ราย 2537
+_ได 2500
+งก_ 2498
+งปร 2467
+ารใ 2466
+_งค 2453
+_ง_ 2450
+างก 2447
+ระก 2444
+รศ_ 2433
+งต_ 2413
+_เป 2403
+นร_ 2398
+นก_ 2393
+_แล 2377
+_กร 2373
+ยละ 2337
+านว 2328
+กรร 2307
+เส_ 2305
+งม_ 2285
+นใน 2281
+หม_ 2279
+_ฒน 2253
+อน_ 2253
+_ละ 2247
+ารศ 2241
+าให 2236
+งค_ 2220
+สาม 2186
+_าค 2183
+_นส 2178
+ตาม 2170
+_า_ 2160
+_งส 2149
+ะกา 2146
+_บก 2138
+_มา 2130
+ะท_ 2128
+มต_ 2123
+ลาย 2111
+กร_ 2094
+นน_ 2089
+รณ_ 2085
+มร_ 2080
+คล_ 2076
+_งน 2069
+หาร 2062
+_ล_ 2052
+_เก 2049
+สาร 2047
+โดย 2010
+_ดก 2009
+_ดเ 2009
+_นค 2006
+_นา 2000
+มท_ 1998
+ชาช 1994
+องท 1993
+ละเ 1980
+าชน 1977
+_นไ 1976
+นด_ 1972
+ฒนา 1970
+แก_ 1965
+_งแ 1963
+_นใ 1954
+ามส 1942
+_งห 1936
+_าท 1932
+นพ_ 1925
+ออก 1923
+อยล 1921
+ระด 1909
+_นแ 1891
+าค_ 1889
+_ระ 1884
+เคร 1880
+_ช_ 1876
+_นร 1875
+งร_ 1866
+อม_ 1866
+าว_ 1855
+หมา 1854
+าล_ 1850
+นช_ 1846
+นขอ 1843
+ชน_ 1842
+าส_ 1833
+องค 1829
+อกา 1824
+หว_ 1809
+นว_ 1806
+มาย 1803
+นปร 1795
+มพ_ 1795
+นอ_ 1793
+ะบบ 1780
+ารณ 1780
+สถา 1778
+งงา 1774
+นมา 1768
+ละก 1767
+ากก 1767
+แต_ 1762
+นวน 1757
+ารแ 1755
+_ให 1753
+ดกา 1749
+รปร 1747
+_งท 1736
+ารพ 1726
+_งม 1723
+_ผ_ 1720
+าบ_ 1703
+ารก 1701
+บปร 1694
+าหน 1691
+เท_ 1687
+นระ 1675
+าคา 1668
+ากร 1664
+_ทย 1662
+ารร 1650
+องร 1644
+ชาต 1642
+านก 1641
+_าแ 1630
+าหร 1629
+นป_ 1628
+แบบ 1617
+ญหา 1615
+มาณ 1615
+ามร 1614
+ารจ 1612
+รส_ 1611
+ารว 1607
+_นด 1604
+ละ_ 1599
+ปล_ 1593
+ทยา 1591
+_นม 1584
+ครง 1583
+_วม 1582
+แล_ 1582
+_าไ 1578
+ารต 1574
+กท_ 1573
+างเ 1567
+งด_ 1565
+หญ_ 1558
+_ญห 1553
+_าล 1549
+นแล 1548
+อง_ 1547
+รเง 1546
+_าจ 1539
+ราะ 1537
+_สา 1535
+ะม_ 1534
+รจ_ 1532
+_งข 1529
+ตรา 1529
+วก_ 1529
+_อส 1519
+ารอ 1518
+ยาก 1514
+_ขอ 1503
+กน_ 1502
+ารค 1482
+_อา 1481
+องป 1480
+ะส_ 1479
+_นน 1477
+_าส 1474
+าย_ 1469
+ในเ 1469
+_วเ 1465
+งใน 1464
+นาค 1461
+ศาส 1460
+จะเ 1444
+งข_ 1439
+องส 1438
+_ข_ 1436
+งจา 1431
+_ศ_ 1429
+ระม 1429
+ายไ 1429
+มส_ 1428
+_บเ 1423
+_อไ 1415
+_ไม 1414
+งขอ 1408
+าเป 1406
+_บป 1405
+สตร 1400
+_เพ 1396
+าระ 1396
+_นว 1392
+ยได 1390
+_นจ 1389
+ภาค 1389
+_จา 1384
+รใช 1384
+ยใน 1380
+_กเ 1377
+หลา 1377
+_รก 1374
+ยท_ 1374
+างา 1373
+าช_ 1372
+นให 1371
+_ใช 1369
+ายใ 1367
+_นล 1364
+กกา 1364
+_บส 1362
+_ทธ 1355
+าสต 1352
+รด_ 1346
+_นข 1344
+_งใ 1339
+านา 1339
+มกา 1336
+งเป 1335
+ธรร 1335
+ะก_ 1334
+_งจ 1329
+_นป 1325
+นม_ 1323
+_งไ 1318
+_งต 1315
+รงก 1307
+รพ_ 1307
+ะต_ 1305
+ะมา 1305
+รวจ 1303
+_นห 1297
+าด_ 1296
+ถาบ 1295
+_รา 1289
+_เร 1283
+_ภา 1280
+ละส 1274
+ยวก 1270
+ารด 1268
+_ดส 1267
+ใหญ 1267
+ผล_ 1264
+กลา 1260
+งว_ 1259
+โคร 1259
+_บค 1258
+อกเ 1258
+อนไ 1257
+ารข 1256
+รวม 1254
+_วง 1252
+สน_ 1246
+_งอ 1242
+ะน_ 1236
+ทร_ 1233
+างๆ 1231
+บาล 1227
+_าป 1219
+ารา 1217
+มน_ 1216
+ในป 1215
+_ยม 1211
+รร_ 1205
+นค_ 1203
+รรค 1202
+รม_ 1201
+โลก 1201
+_อใ 1198
+บท_ 1194
+ายเ 1194
+ระท 1193
+ารล 1192
+นเป 1186
+นได 1186
+นข_ 1183
+ในร 1183
+_ยบ 1182
+ากน 1182
+ะช_ 1180
+เห_ 1180
+าจะ 1178
+ารบ 1178
+แห_ 1177
+_นธ 1176
+ละค 1174
+คาร 1171
+นละ 1171
+พาะ 1169
+_หา 1161
+ดท_ 1161
+รษฐ 1157
+ศรษ 1157
+าง_ 1157
+รเล 1156
+_นช 1154
+อกต 1151
+านเ 1149
+_ธ_ 1148
+งเท 1148
+_คร 1145
+งกล 1143
+เบ_ 1142
+ยกา 1140
+ระห 1137
+บาท 1131
+_งป 1130
+รอง 1130
+_บท 1124
+รต_ 1124
+นผ_ 1123
+มก_ 1122
+บว_ 1116
+ปฏ_ 1116
+_เห 1114
+_ญญ 1113
+ทธ_ 1112
+องจ 1109
+งมา 1105
+_วา 1101
+ดส_ 1101
+เหล 1100
+านท 1099
+ายก 1099
+นล_ 1098
+องม 1098
+_มพ 1097
+นทา 1096
+วลา 1094
+_ดม 1093
+_งร 1090
+าเน 1090
+ษฐก 1084
+นย_ 1083
+_ดต 1080
+ระส 1080
+_ตา 1072
+นเร 1071
+ฐก_ 1070
+ใหม 1070
+_กล 1067
+ลย_ 1067
+_ดข 1065
+างไ 1064
+_ถ_ 1061
+ดต_ 1059
+ถาน 1054
+รกา 1052
+ยงา 1051
+_ออ 1048
+งคว 1048
+หต_ 1048
+นาร 1045
+ยาย 1044
+กอบ 1041
+ะหว 1040
+งแล 1039
+_นพ 1035
+นธ_ 1033
+มข_ 1032
+ฐาน 1028
+ะเป 1027
+เศร 1026
+นอย 1025
+เวล 1023
+าปร 1022
+างป 1020
+งระ 1018
+อาจ 1016
+จร_ 1011
+ฉพา 1011
+บด_ 1011
+พล_ 1009
+_กท 1007
+นไป 1007
+าใน 1007
+ลอด 1002
+ะกอ 1002
+บค_ 999
+ยร_ 999
+สนอ 998
+นาย 995
+_าต 992
+ญญา 992
+_งา 991
+นอก 990
+โรง 990
+_ผล 986
+เหต 986
+เปล 985
+_นย 982
+องอ 981
+งผ_ 980
+_เค 978
+บต_ 974
+รค_ 974
+รทา 973
+องใ 971
+นโล 965
+อท_ 962
+านค 960
+_มข 958
+ะว_ 958
+พรา 957
+_จจ 955
+ควร 955
+าแล 954
+สม_ 953
+าหา 951
+_อค 950
+ลาง 950
+านอ 950
+_นผ 949
+_แก 948
+เฉพ 948
+_ยก 945
+องต 944
+ทย_ 943
+พยา 941
+ารน 939
+างส 938
+_อร 937
+กรณ 936
+นจ_ 935
+จจ_ 934
+นาด 934
+งช_ 931
+ยต_ 929
+งให 928
+แนว 926
+แผน 926
+กข_ 923
+ตอร 922
+าตร 922
+งเร 920
+นบา 917
+อให 916
+_ดท 915
+าธ_ 915
+เสร 914
+มศ_ 911
+เตอ 911
+_ชา 910
+กส_ 909
+เอ_ 909
+เอก 906
+าเร 901
+_พย 898
+รให 896
+งเส 894
+องแ 894
+_บอ 892
+ระจ 892
+งป_ 891
+ากเ 890
+งอ_ 884
+กจา 883
+_อท 882
+านบ 882
+ามต 882
+ลาด 881
+รน_ 880
+_สม 878
+เคล 878
+_เอ 872
+บสน 872
+พรร 872
+ไว_ 870
+_ษ_ 869
+ครา 869
+นเม 869
+าขอ 866
+จาร 865
+สดง 863
+ยน_ 861
+ยว_ 860
+นกล 859
+_งพ 858
+_าด 858
+งจ_ 858
+หนด 856
+มม_ 855
+อก_ 855
+แรง 855
+งคม 854
+งถ_ 854
+กาศ 852
+เอง 851
+างท 850
+ยม_ 849
+_กค 848
+นกร 847
+สหร 847
+_มเ 844
+ลงท 842
+บาย 840
+รว_ 840
+นหน 839
+_อข 838
+ะจ_ 837
+ตรว 836
+อกจ 836
+_อว 835
+งเก 834
+องผ 831
+ในส 831
+บคว 828
+งไม 827
+อส_ 825
+งพ_ 824
+สภา 823
+งชา 821
+องน 820
+รมก 819
+จะม 816
+นคว 815
+คโน 814
+ละป 813
+ารห 810
+_นโ 809
+มหา 808
+อนเ 808
+_กส 807
+_าอ 807
+โนโ 806
+ทคโ 805
+ารไ 803
+_อป 801
+โลย 801
+นเด 799
+เทค 798
+ละร 794
+นรา 792
+ครอ 787
+ฐบา 787
+รงง 787
+_ฐบ 785
+หกร 784
+ราค 782
+_งง 781
+_งช 776
+ากท 775
+ราก 774
+รเป 772
+รเร 771
+_คน 769
+าจา 766
+ดล_ 765
+าณ_ 765
+แทน 765
+_วอ 764
+_กก 762
+รอบ 762
+_หล 761
+งหน 760
+สาห 759
+โรค 759
+รบร 758
+ยก_ 755
+อว_ 754
+ดข_ 753
+ดมศ 753
+เจ_ 752
+_เด 751
+ะปร 747
+_อห 745
+นเง 744
+รกร 744
+_ดค 742
+_เข 742
+าแห 742
+ขนา 741
+ดยเ 741
+างค 741
+าพ_ 741
+_าข 740
+างแ 740
+นอง 739
+นเอ 738
+ยส_ 737
+วน_ 737
+ะยะ 737
+ามค 736
+ละอ 733
+ระย 732
+านส 732
+_ดย 729
+พระ 729
+_ตส 727
+_กต 726
+านข 724
+_เว 722
+จะไ 720
+กษ_ 719
+วนก 719
+งย_ 718
+สอบ 718
+_จก 717
+_บผ 717
+ผลก 717
+งได 716
+ารผ 716
+_หน 714
+คณะ 713
+พร_ 713
+_อต 712
+_เล 712
+าคว 712
+ภาย 711
+มด_ 710
+ารม 709
+ายท 708
+แสด 708
+องพ 706
+งละ 705
+ชาก 705
+นภา 705
+ลกา 705
+_เม 703
+นาก 703
+_นบ 700
+องไ 700
+นไห 699
+บาง 699
+งหม 698
+องข 697
+งอย 696
+มาต 695
+ะห_ 695
+รขอ 693
+ากข 693
+ตอบ 691
+อาห 688
+หมด 686
+_เน 685
+นอน 685
+าหก 685
+ธาน 682
+าใช 682
+_ห_ 679
+าะห 679
+ไหว 679
+_ชน 678
+ษา_ 678
+กอง 677
+ธนา 677
+ายต 676
+เสน 676
+งแต 675
+ราช 675
+าไป 675
+างร 674
+วย_ 672
+กรม 671
+ทศไ 671
+นเพ 670
+นตร 669
+เทพ 668
+านม 664
+ละม 663
+เหม 662
+งไร 660
+_บา 658
+งจะ 658
+_มต 657
+เต_ 656
+ยนร 654
+าเส 654
+ภาษ 653
+ลาก 653
+นคร 651
+ระธ 650
+รแก 649
+างด 648
+มค_ 646
+องห 646
+าจ_ 646
+_กว 645
+ดว_ 645
+กงา 644
+นคน 643
+นทร 642
+_บต 641
+ตสา 641
+ะกร 641
+กด_ 639
+ณะท 639
+ยแล 639
+นจะ 637
+วร_ 635
+ในช 635
+_มอ 633
+กษต 632
+รแล 632
+ษตร 632
+เกษ 631
+แรก 630
+_ยา 629
+บผ_ 629
+ตลา 628
+อาก 627
+กษณ 626
+งเด 626
+ยบา 626
+_อบ 625
+างม 625
+เว_ 625
+_ดห 624
+นเท 624
+_ดแ 623
+มเค 622
+ในอ 622
+_งล 621
+นจา 621
+_ยร 620
+ะธา 619
+เรา 619
+กก_ 617
+ศไท 616
+กใน 615
+วมท 615
+วยก 615
+หาก 615
+ณฑ_ 614
+ราง 614
+ายน 614
+าได 614
+ะได 613
+รณา 612
+วนใ 612
+_กง 608
+_อแ 607
+ยาล 606
+วดล 606
+_บด 605
+นาม 605
+ายา 605
+ายแ 605
+จะต 604
+ดขอ 604
+บน_ 604
+หาว 604
+_ดร 603
+ะเภ 603
+_าพ 602
+ะแน 602
+_าบ 601
+แวด 601
+ะบ_ 598
+ะร_ 597
+_ยด 596
+มปร 596
+เภท 596
+ยให 595
+_ซ_ 593
+_มก 592
+_แน 592
+านใ 592
+าศา 592
+_ดอ 591
+ยชน 590
+อนข 590
+ายอ 590
+แม_ 590
+_กอ 588
+มอง 585
+กกว 583
+บอ_ 582
+_อจ 581
+นหล 581
+บส_ 580
+พย_ 580
+ยขอ 580
+วมก 580
+ปท_ 579
+โยบ 579
+_มท 578
+าอ_ 578
+มเส 577
+ยาศ 577
+รเม 577
+าะส 577
+กสา 576
+ระโ 576
+บรร 575
+นบ_ 574
+อต_ 574
+ากจ 574
+ปลง 572
+วอย 572
+มเป 571
+มสา 570
+ะสา 570
+ายง 570
+นสา 569
+อกส 569
+องโ 568
+าคม 568
+งผล 567
+_บน 566
+างต 566
+_มช 565
+_าา 565
+ดน_ 565
+งคร 563
+างช 563
+คน_ 562
+อแก 562
+แกน 562
+_หร 561
+นเช 561
+รช_ 561
+ารโ 561
+วม_ 560
+อนา 560
+ดให 559
+มว_ 559
+ยาม 558
+วยเ 558
+ะโย 558
+มคว 557
+ามพ 557
+งสถ 556
+ลท_ 556
+นาน 555
+มขอ 555
+วาง 555
+อคว 555
+ะคว 555
+แปล 555
+กมา 553
+ฝาก 553
+_นๆ 552
+นใจ 551
+อไป 551
+างอ 551
+_อด 550
+_เช 550
+งหว 548
+_งผ 546
+_ดใ 546
+อนท 546
+ะไม 545
+แหน 544
+นห_ 543
+ยเฉ 543
+ละน 543
+ษณะ 543
+นไม 542
+รบ_ 541
+รอน 541
+าวะ 541
+รลง 540
+ยด_ 539
+าป_ 538
+แข_ 538
+_งว 537
+นอา 537
+าศ_ 537
+บก_ 536
+ะพ_ 536
+_มค 535
diff --git a/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties b/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties
new file mode 100644
index 0000000000..c6b1880052
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties
@@ -0,0 +1,56 @@
+#
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+# This is a tika LanguageIdentifier properties file.
+# Its name is org/apache/tika/language/tika.language.properties
+# You can override it by placing a copy on the classpath in a file called
+# org/apache/tika/language/tika.language.override.properties
+
+# List of languages for which there are .ngp profiles
+# If there exists an ISO 639-1 2-letter code it should be used
+# If not, you can choose an ISO 639-2 3-letter code
+# See http://www.loc.gov/standards/iso639-2/php/code_list.php
+languages=be,ca,da,de,eo,et,el,en,es,fi,fr,fa,gl,hu,is,it,lt,nl,no,pl,pt,ro,ru,sk,sl,sv,th,uk
+
+# List of language names in english
+name.be=Belarusian
+name.ca=Catalan
+name.da=Danish
+name.de=German
+name.eo=Esperanto
+name.et=Estonian
+name.el=Greek
+name.en=English
+name.es=Spanish
+name.fi=Finnish
+name.fr=French
+name.fa=Persian
+name.gl=Galician
+name.hu=Hungarian
+name.is=Icelandic
+name.it=Italian
+name.lt=Lithuanian
+name.nl=Dutch
+name.no=Norwegian
+name.pl=Polish
+name.pt=Portuguese
+name.ro=Romanian
+name.ru=Russian
+name.sk=Slovakian
+name.sl=Slovenian
+name.sv=Swedish
+name.th=Thai
+name.uk=Ukrainian
diff --git a/tika-core/src/main/resources/org/apache/tika/language/uk.ngp b/tika-core/src/main/resources/org/apache/tika/language/uk.ngp
new file mode 100644
index 0000000000..9699924656
--- /dev/null
+++ b/tika-core/src/main/resources/org/apache/tika/language/uk.ngp
@@ -0,0 +1,1014 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements. See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License. You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+на_ 31005
+_на 30413
+_пр 27783
+_по 25204
+ого 22546
+_і_ 22494
+го_ 21091
+_за 20327
+ий_ 20183
+_в_ 20089
+их_ 20023
+_ви 19862
+_ро 19378
+_та 19078
+_ст 18927
+ів_ 18762
+_ко 18571
+ня_ 18400
+ння 17493
+_ві 16666
+_до 16607
+та_ 16281
+про 16163
+ся_ 16121
+_як 15972
+_з_ 15953
+_у_ 15901
+ськ 15538
+ні_ 14883
+_th 14863
+сто 14729
+від 14181
+ти_ 13996
+the 13870
+ії_ 13749
+ом_ 13601
+ми_ 13215
+ста 12930
+ере 12896
+ть_ 12835
+пер 12814
+ою_ 12775
+ува 12375
+he_ 12322
+енн 11280
+_пі 11279
+ої_ 11274
+льн 11135
+ку_ 10750
+ка_ 10741
+ван 10642
+_бу 10602
+ист 10393
+аль 10192
+_пе 10151
+них 10037
+ком 9970
+іст 9955
+му_ 9909
+_що 9841
+_не 9808
+on_ 9775
+er_ 9750
+ний 9654
+ько 9587
+ати 9472
+що_ 9445
+ки_ 9293
+анн 9289
+ли_ 9275
+ля_ 9265
+олі 9258
+ii_ 9168
+им_ 9115
+при 9070
+но_ 8988
+_мо 8963
+ост 8878
+ла_ 8858
+іль 8796
+_ма 8783
+ті_ 8699
+es_ 8469
+ому 8239
+тьс 8186
+ься 8181
+літ 8175
+ала 8069
+не_ 7970
+до_ 7967
+ій_ 7880
+роз 7833
+_of 7682
+_мі 7638
+кор 7525
+_сп 7516
+ion 7514
+_ін 7488
+_in 7412
+of_ 7353
+ови 7296
+акт 7195
+ова 7175
+тор 7130
+ика 7023
+тол 6990
+нов 6948
+and 6892
+ьки 6868
+ори 6860
+nd_ 6740
+_су 6629
+_co 6626
+для 6620
+ав_ 6588
+ног 6576
+оло 6571
+_дл 6564
+рис 6483
+ним 6435
+під 6426
+_de 6391
+ані 6362
+_an 6356
+ід_ 6269
+рок 6196
+сти 6181
+ові 6129
+тан 6125
+так 6070
+ико 6038
+аці 6035
+вер 6012
+роб 5988
+_ве 5978
+аст 5953
+кий 5945
+ітт 5902
+al_ 5899
+ово 5897
+лен 5834
+ну_ 5815
+сті 5800
+_ma 5784
+_ка 5754
+tio 5750
+али 5746
+ють 5735
+час 5723
+ент 5675
+ами 5660
+тер 5657
+_то 5635
+ни_ 5596
+стр 5553
+in_ 5547
+оро 5536
+_ре 5524
+_се 5512
+_св 5506
+кон 5476
+_де 5474
+_те 5445
+_ба 5391
+ці_ 5385
+пов 5355
+бул 5331
+міс 5313
+ter 5306
+мен 5287
+ття 5276
+кла 5261
+зна 5256
+кти 5251
+an_ 5221
+тов 5161
+род 5160
+_га 5147
+орі 5110
+_па 5103
+_ii 5092
+вик 5087
+ва_ 5054
+ном 5052
+она 5018
+ту_ 4997
+єть 4977
+оди 4956
+ред 4926
+ati 4905
+гал 4902
+ing 4883
+оку 4879
+ng_ 4863
+ког 4849
+тя_ 4841
+_ме 4826
+ає_ 4813
+тра 4809
+пра 4768
+вал 4763
+нсь 4732
+ір_ 4726
+яки 4721
+_re 4712
+_си 4712
+ло_ 4692
+ції 4662
+en_ 4628
+ної 4628
+_во 4627
+is_ 4626
+_а_ 4607
+ах_ 4600
+ник 4599
+як_ 4574
+омп 4565
+ent 4564
+гра 4562
+_гр 4560
+ани 4551
+вор 4530
+три 4524
+біл 4514
+за_ 4511
+тво 4476
+_ча 4467
+тик 4454
+але 4453
+ри_ 4444
+le_ 4443
+алі 4442
+_ал 4433
+ими 4416
+ват 4400
+рав 4384
+_ос 4373
+дно 4373
+ідн 4368
+ичн 4342
+сту 4312
+ія_ 4301
+рів 4280
+лас 4276
+кра 4273
+_об 4249
+лад 4248
+ері 4207
+ову 4195
+одн 4169
+мін 4123
+_st 4116
+ков 4101
+us_ 4097
+зір 4094
+сть 4082
+рим 4081
+кі_ 4078
+ако 4074
+узі 4072
+_i_ 4060
+ed_ 4058
+був 4018
+том 4003
+сер 3991
+_бі 3985
+_ра 3978
+ано 3971
+_wi 3956
+_ї_ 3948
+re_ 3943
+ійн 3924
+_рі 3910
+ера 3908
+ив_ 3902
+нал 3886
+спі 3885
+лі_ 3870
+ени 3856
+ніс 3856
+сте 3856
+_ca 3843
+чен 3841
+суз 3836
+_a_ 3826
+ічн 3825
+дов 3822
+ia_ 3808
+кол 3793
+ато 3785
+ків 3779
+ких 3762
+ств 3756
+овн 3752
+_тр 3751
+_pa 3742
+рал 3738
+_од 3736
+ран 3736
+ров 3734
+чно 3733
+фор 3713
+пол 3687
+_to 3680
+тів 3663
+ра_ 3662
+iii 3660
+рен 3657
+жен 3637
+ана 3619
+_li 3584
+ити 3576
+тив 3572
+_но 3553
+роц 3533
+кож 3524
+тро 3518
+то_ 3513
+йсь 3502
+_це 3495
+рит 3488
+мож 3483
+лак 3473
+кої 3468
+дин 3466
+_pr 3463
+ною 3462
+ьно 3423
+_ск 3421
+de_ 3419
+оді 3408
+вол 3387
+рам 3380
+_йо 3369
+тал 3365
+вни 3364
+рат 3363
+_vi 3357
+еле 3357
+_mi 3354
+орм 3343
+_кр 3342
+ок_ 3339
+пис 3329
+ром 3326
+мер 3315
+віт 3299
+оні 3283
+ві_ 3279
+or_ 3277
+ше_ 3249
+_че 3234
+_го 3214
+_fo 3213
+ійс 3195
+ден 3189
+лив 3184
+ага 3181
+_xv 3179
+ув_ 3161
+ьни 3155
+_mo 3149
+анд 3145
+ne_ 3135
+анс 3132
+нач 3127
+_se 3113
+пор 3110
+ини 3107
+for 3105
+_зн 3103
+_s_ 3096
+_са 3094
+ект 3090
+арт 3084
+_be 3081
+te_ 3074
+ож_ 3073
+_po 3068
+вно 3067
+вел 3058
+рос 3058
+ній 3057
+чни 3054
+вид 3046
+_вс 3044
+ду_ 3040
+_бе 3038
+ина 3038
+_xi 3022
+ію_ 3022
+_є_ 3012
+_so 3011
+ce_ 3010
+цій 3010
+рот 3008
+або 3003
+льш 2994
+мов 2970
+мпа 2970
+пос 2969
+дом 2963
+дан 2960
+пів 2960
+же_ 2946
+ход 2945
+оці 2937
+сно 2922
+nte 2921
+ує_ 2914
+тав 2911
+ді_ 2891
+сво 2874
+_ch 2868
+_аб 2868
+ить 2859
+ені 2856
+оча 2855
+_лі 2852
+тич 2851
+to_ 2843
+_la 2839
+вся 2832
+ало 2824
+vii 2814
+ers 2812
+асн 2809
+ися 2808
+тин 2806
+тат 2799
+_ан 2795
+вих 2790
+ерш 2789
+лик 2778
+st_ 2777
+ант 2775
+вав 2773
+буд 2771
+які 2769
+_di 2766
+ери 2763
+нос 2760
+ман 2759
+кан 2757
+ара 2749
+лов 2746
+_sa 2738
+ry_ 2731
+інш 2730
+рон 2727
+se_ 2717
+ica 2710
+льк 2709
+nt_ 2708
+най 2707
+ver 2705
+_да 2702
+_me 2701
+ено 2701
+обл 2700
+_ти 2699
+_al 2689
+йог 2685
+xvi 2676
+ели 2676
+бо_ 2667
+івн 2659
+ic_ 2651
+вні 2650
+дже 2649
+зап 2649
+тем 2647
+раї 2645
+во_ 2643
+ают 2642
+поч 2636
+тур 2636
+_un 2635
+рес 2634
+ада 2630
+мат 2621
+lin 2620
+бра 2613
+_ar 2608
+ила 2608
+нні 2607
+нці 2602
+рог 2595
+int 2589
+et_ 2588
+трі 2586
+тис 2580
+_ba 2575
+ива 2570
+опо 2566
+ns_ 2563
+оли 2561
+или 2556
+ода 2556
+_no 2554
+ate 2551
+аїн 2549
+ерс 2536
+бер 2530
+сві 2529
+ерн 2527
+ist 2518
+нь_ 2511
+ch_ 2494
+оль 2494
+ам_ 2491
+ix_ 2488
+ома 2484
+ine 2474
+рії 2471
+_fr 2470
+her 2467
+_зв 2465
+_ді 2461
+отр 2461
+tor 2452
+рез 2448
+_ні 2444
+ізн 2443
+раз 2442
+_пл 2440
+ро_ 2439
+яко 2437
+_ro 2433
+ste 2428
+ким 2423
+лос 2420
+вит 2418
+вою 2416
+_ва 2413
+ньо 2408
+рац 2404
+одо 2403
+_ав 2398
+туп 2395
+ін_ 2394
+sta 2391
+обо 2390
+der 2388
+оти 2388
+ивн 2386
+лис 2383
+нів 2383
+ind 2377
+вій 2375
+_чи 2374
+оре 2372
+чи_ 2371
+el_ 2367
+огр 2359
+ена 2352
+дос 2351
+as_ 2350
+_ди 2348
+над 2347
+наз 2347
+_кі 2341
+юва 2341
+дни 2337
+чер 2337
+пре 2334
+омо 2329
+рі_ 2329
+_кл 2324
+_фо 2324
+ьна 2314
+пан 2306
+лів 2304
+ди_ 2303
+нта 2302
+_is 2300
+єю_ 2300
+ру_ 2299
+рик 2298
+_ne 2287
+con 2287
+eri 2287
+оду 2286
+_бо 2281
+без 2274
+ll_ 2271
+ям_ 2263
+ідо 2260
+ест 2256
+ма_ 2252
+кою 2249
+аме 2246
+_со 2245
+_le 2244
+аєт 2243
+мет 2243
+він 2240
+сь_ 2238
+com 2234
+вої 2233
+пір 2233
+res 2227
+at_ 2226
+нув 2223
+ора 2223
+che 2221
+мал 2220
+rs_ 2218
+апи 2218
+ле_ 2216
+іра 2213
+ill 2212
+под 2211
+art 2210
+ики 2207
+змі 2202
+_na 2200
+la_ 2197
+th_ 2197
+дні 2192
+_бр 2178
+ула 2174
+ву_ 2171
+нап 2169
+зас 2164
+um_ 2159
+iv_ 2158
+ото 2158
+сис 2158
+кіл 2154
+lan 2149
+_ел 2148
+роп 2147
+скл 2147
+зро 2146
+рол 2145
+ge_ 2136
+_te 2133
+_ge 2132
+ючи 2127
+дер 2126
+tra 2123
+_he 2119
+нен 2116
+ням 2116
+пар 2116
+_da 2115
+пла 2115
+спо 2115
+ією 2114
+арі 2103
+гор 2100
+ем_ 2100
+кри 2095
+ькі 2095
+вод 2089
+лан 2086
+дів 2073
+_do 2071
+_му 2070
+елі 2069
+all 2068
+man 2066
+рма 2066
+_зм 2064
+ts_ 2063
+аро 2058
+_ар 2057
+уло 2057
+су_ 2056
+вип 2055
+ta_ 2054
+_sc 2052
+ви_ 2047
+гол 2047
+und 2041
+тар 2037
+ей_ 2031
+per 2025
+ьог 2022
+est 2020
+іні 2014
+кар 2012
+іон 2012
+омі 2010
+ер_ 2009
+вий 2007
+сел 2003
+_ук 2002
+_pe 2001
+лог 2001
+екс 1994
+озв 1990
+ell 1988
+ко_ 1988
+існ 1986
+_оп 1984
+_фі 1984
+вто 1983
+_ор 1980
+ино 1980
+ive 1977
+ава 1969
+_su 1968
+_ли 1968
+пот 1967
+ов_ 1966
+_bo 1964
+_si 1963
+иці 1961
+_ha 1960
+ель 1960
+_ге 1957
+ене 1955
+рем 1954
+_із 1953
+нім 1951
+age 1949
+ль_ 1949
+дал 1947
+ас_ 1945
+str 1941
+лек 1941
+ran 1938
+na_ 1929
+ниц 1929
+оно 1929
+всь 1925
+чин 1925
+нте 1916
+цен 1912
+ька 1912
+ніш 1908
+ve_ 1905
+ону 1901
+уют 1900
+вим 1898
+авс 1897
+nal 1896
+pro 1893
+пак 1892
+еро 1889
+вог 1884
+ави 1883
+зав 1883
+ин_ 1881
+зал 1877
+me_ 1876
+із_ 1876
+ідт 1874
+_gr 1873
+ове 1873
+піс 1870
+ons 1868
+win 1865
+сі_ 1864
+_tr 1863
+_en 1862
+иро 1862
+уєт 1861
+sto 1860
+изн 1860
+sch 1858
+_ho 1857
+ant 1855
+иво 1855
+ім_ 1855
+ra_ 1853
+де_ 1851
+кам 1851
+лін 1847
+нав 1846
+тті 1842
+ess 1838
+_зо 1837
+різ 1835
+укр 1833
+ідп 1833
+обр 1832
+аче 1829
+це_ 1829
+хід 1823
+тув 1822
+men 1820
+ty_ 1820
+по_ 1820
+_дв 1816
+ari 1815
+ших 1813
+ад_ 1811
+окр 1811
+опе 1811
+інн 1805
+бли 1804
+соб 1802
+гру 1801
+он_ 1801
+_ім 1799
+гат 1795
+ита 1790
+ian 1789
+ули 1789
+ипу 1788
+орт 1787
+_ри 1786
+_й_ 1785
+_ле 1785
+оле 1784
+ar_ 1781
+вст 1780
+цьк 1780
+нтр 1779
+сам 1779
+йни 1778
+вир 1777
+нас 1777
+зви 1776
+om_ 1775
+йно 1775
+mic 1772
+вле 1769
+ор_ 1763
+ect 1759
+ona 1759
+лиш 1758
+_fi 1757
+_зб 1757
+вин 1757
+rd_ 1755
+uni 1754
+авл 1754
+ерт 1754
+сни 1753
+ss_ 1752
+_іс 1750
+ndo 1750
+нут 1749
+тва 1749
+cha 1747
+_гу 1746
+тру 1743
+уль 1743
+аді 1741
+mar 1734
+ard 1733
+era 1732
+пом 1732
+азв 1731
+ern 1730
+вис 1729
+_on 1728
+око 1726
+ско 1724
+ез_ 1722
+озр 1721
+тни 1720
+дав 1718
+ень 1718
+дит 1714
+ame 1711
+ак_ 1710
+лем 1710
+_lo 1700
+les 1698
+ган 1697
+икі 1695
+нар 1691
+nce 1690
+ber 1689
+ain 1683
+edi 1680
+авт 1673
+tur 1672
+_ку 1668
+осл 1668
+ord 1667
+_ra 1663
+вон 1660
+ie_ 1659
+має 1659
+уча 1657
+лон 1656
+рту 1656
+рив 1651
+_фр 1647
+rat 1646
+ros 1645
+нти 1640
+нши 1638
+има 1637
+тим 1631
+анц 1630
+cor 1629
+it_ 1629
+rea 1629
+_ту 1628
+ric 1627
+_wa 1626
+ерв 1626
+оме 1625
+икл 1624
+one 1623
+вил 1623
+пус 1623
+ача 1614
+лу_ 1613
+нії 1613
+nde 1611
+зво 1610
+мог 1609
+поз 1609
+яка 1609
+ктн 1608
+дна 1606
+вла 1605
+зі_ 1604
+нан 1604
+ути 1604
+ито 1603
+іме 1603
+ях_ 1601
+os_ 1599
+ris 1599
+_ja 1598
+_фа 1598
+обі 1597
+між 1596
+оби 1594
+рад 1594
+тна 1593
+іка 1592
+кат 1589
+нст 1588
+dow 1587
+_as 1584
+кці 1584
+_др 1582
+ряд 1580
+рин 1579
+_sh 1576
+тог 1575
+tic 1574
+дат 1574
+зов 1574
+_вл 1572
+амі 1571
+_au 1570
+апр 1569
+баг 1568
+рно 1567
+ідк 1563
+par 1561
+ція 1561
+_c_ 1560
+бом 1560
+об_ 1560
+іал 1560
+они 1557
+пон 1552
+авн 1551
+vi_ 1550
+ате 1550
+чі_ 1550
+ws_ 1549
+шен 1546
+_br 1545
+бор 1540
+осо 1539
+мар 1538
+_iv 1537
+кал 1536
+щен 1536
+min 1535
+реж 1533
+інт 1532
+рни 1531
+nat 1530
+_sp 1525
+важ 1525
+_дж 1524
+льб 1523
+_сл 1520
+ліз 1520
+ан_ 1519
+оля 1519
+тел 1519
+іта 1517
+онс 1515
+поп 1515
+іх_ 1514
+атк 1511
+ope 1509
+ема 1509
+ині 1509
+ожн 1509
+там 1509
+орг 1508
+his 1505
+бут 1505
+_x_ 1504
diff --git a/tika-core/src/test/java/org/apache/tika/language/LanguageIdentifierTest.java b/tika-core/src/test/java/org/apache/tika/language/LanguageIdentifierTest.java
new file mode 100644
index 0000000000..7455e03d72
--- /dev/null
+++ b/tika-core/src/test/java/org/apache/tika/language/LanguageIdentifierTest.java
@@ -0,0 +1,184 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+import static java.nio.charset.StandardCharsets.UTF_8;
+import static org.junit.Assert.assertEquals;
+import static org.junit.Assert.assertFalse;
+import static org.junit.Assert.assertTrue;
+
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.InputStreamReader;
+import java.io.Writer;
+import java.util.HashMap;
+import java.util.Locale;
+
+import org.apache.tika.io.IOUtils;
+import org.junit.Before;
+import org.junit.Test;
+
+/**
+ * JUnit based test of class {@link LanguageIdentifier}.
+ *
+ * @author Sami Siren
+ * @author Jerome Charron - http://frutch.free.fr/
+ */
+@Deprecated
+public class LanguageIdentifierTest {
+
+ private static final String[] languages = new String[] {
+ // TODO - currently Estonian and Greek fail these tests.
+ // Enable when language detection works better.
+ "da", "de", /* "et", "el", */ "en", "es", "fi", "fr", "it",
+ "lt", "nl", "pt", "sv"
+ };
+
+ @Before
+ public void setUp() {
+ LanguageIdentifier.initProfiles();
+ }
+
+ @Test
+ public void testLanguageDetection() throws IOException {
+ for (String language : languages) {
+ ProfilingWriter writer = new ProfilingWriter();
+ writeTo(language, writer);
+ LanguageIdentifier identifier = null;
+ identifier = new LanguageIdentifier(writer.getProfile());
+ assertEquals(language, identifier.getLanguage());
+ // Lithuanian is detected but isn't reasonably certain:
+ if (!language.equals("lt")) {
+ assertTrue(identifier.toString(), identifier.isReasonablyCertain());
+ }
+ }
+ }
+
+ @Test
+ public void testClearAddAndInitProfiles() throws IOException {
+ // Prepare english and german language profiles
+ ProfilingWriter enWriter = new ProfilingWriter();
+ writeTo("en", enWriter);
+ LanguageProfile enProfile = enWriter.getProfile();
+ ProfilingWriter deWriter = new ProfilingWriter();
+ writeTo("de", deWriter);
+ LanguageProfile deProfile = deWriter.getProfile();
+
+ // Out of the box profiles
+ LanguageIdentifier identifier = null;
+ identifier = new LanguageIdentifier(enProfile);
+ assertEquals("en", identifier.getLanguage());
+ assertTrue(identifier.isReasonablyCertain());
+
+ // No profiles
+ LanguageIdentifier.clearProfiles();
+ identifier = new LanguageIdentifier(enProfile);
+ assertFalse(identifier.isReasonablyCertain());
+
+ // Only English profile
+ LanguageIdentifier.addProfile("en", enProfile);
+ identifier = new LanguageIdentifier(enProfile);
+ assertEquals("en", identifier.getLanguage());
+ assertTrue(identifier.isReasonablyCertain());
+
+ // English and German profiles loaded explicitly from initProfiles method
+ HashMap profilesMap = new HashMap();
+ profilesMap.put("en", enProfile);
+ profilesMap.put("de", deProfile);
+ LanguageIdentifier.initProfiles(profilesMap);
+ identifier = new LanguageIdentifier(enProfile);
+ assertEquals("en", identifier.getLanguage());
+ assertTrue(identifier.isReasonablyCertain());
+ identifier = new LanguageIdentifier(deProfile);
+ assertEquals("de", identifier.getLanguage());
+ assertTrue(identifier.isReasonablyCertain());
+ }
+
+ // Enable this to compare performance
+ public void testPerformance() throws IOException {
+ final int MRUNS = 8;
+ final int IRUNS = 10;
+ int detected = 0; // To avoid code removal by JVM or compiler
+ String lastResult = null;
+ for (int m = 0 ; m < MRUNS ; m++) {
+ LanguageProfile.useInterleaved = (m & 1) == 1; // Alternate between standard and interleaved
+ String currentResult = "";
+ final long start = System.nanoTime();
+ for (int i = 0 ; i < IRUNS ; i++) {
+ for (String language : languages) {
+ ProfilingWriter writer = new ProfilingWriter();
+ writeTo(language, writer);
+ LanguageIdentifier identifier = new LanguageIdentifier(writer.getProfile());
+ if (identifier.isReasonablyCertain()) {
+ currentResult += identifier.getLanguage();
+ detected++;
+ }
+ }
+ }
+ System.out.println(String.format(Locale.ROOT,
+ "Performed %d detections at %2d ms/test with interleaved=%b",
+ languages.length*IRUNS, (System.nanoTime()-start)/1000000/(languages.length*IRUNS),
+ LanguageProfile.useInterleaved));
+ if (lastResult != null) { // Might as well test that they behave the same while we're at it
+ assertEquals("This result should be equal to the last", lastResult, currentResult);
+ }
+ lastResult = currentResult;
+ }
+ if (detected == -1) {
+ System.out.println("Never encountered but keep it to guard against over-eager optimization");
+ }
+ }
+
+ @Test
+ public void testMixedLanguages() throws IOException {
+ for (String language : languages) {
+ for (String other : languages) {
+ if (!language.equals(other)) {
+ if (language.equals("lt") || other.equals("lt")) {
+ continue;
+ }
+ ProfilingWriter writer = new ProfilingWriter();
+ writeTo(language, writer);
+ writeTo(other, writer);
+ LanguageIdentifier identifier = null;
+ identifier = new LanguageIdentifier(writer.getProfile());
+ assertFalse("mix of " + language + " and " + other + " incorrectly detected as " + identifier, identifier.isReasonablyCertain());
+ }
+ }
+ }
+ }
+
+ // TIKA-453: Fix up language identifier used for Estonian
+ @Test
+ public void testEstonia() throws Exception {
+ final String estonian = "et";
+ ProfilingWriter writer = new ProfilingWriter();
+ writeTo(estonian, writer);
+ LanguageIdentifier identifier =
+ new LanguageIdentifier(writer.getProfile());
+ assertEquals(estonian, identifier.getLanguage());
+ }
+
+ private void writeTo(String language, Writer writer) throws IOException {
+ try (InputStream stream =
+ LanguageIdentifierTest.class.getResourceAsStream(
+ language + ".test")) {
+ IOUtils.copy(new InputStreamReader(stream, UTF_8), writer);
+ }
+ }
+
+}
diff --git a/tika-core/src/test/java/org/apache/tika/language/LanguageProfileTest.java b/tika-core/src/test/java/org/apache/tika/language/LanguageProfileTest.java
new file mode 100644
index 0000000000..f1159a9034
--- /dev/null
+++ b/tika-core/src/test/java/org/apache/tika/language/LanguageProfileTest.java
@@ -0,0 +1,59 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+import static org.junit.Assert.assertEquals;
+import static org.junit.Assert.assertTrue;
+
+import java.io.IOException;
+
+import org.junit.Test;
+
+@Deprecated
+public class LanguageProfileTest {
+
+ @Test
+ public void testLanguageProfile() throws IOException {
+ LanguageProfile foo = new LanguageProfile();
+ assertEquals(0, foo.getCount("foo"));
+
+ foo.add("foo");
+ assertEquals(1, foo.getCount("foo"));
+
+ foo.add("foo", 3);
+ assertEquals(4, foo.getCount("foo"));
+
+ LanguageProfile bar = new LanguageProfile();
+ assertEquals(1.0, foo.distance(bar), 1e-8);
+
+ bar.add("bar");
+ assertEquals(Math.sqrt(2.0), foo.distance(bar), 1e-8);
+
+ bar.add("bar", 3);
+ assertEquals(Math.sqrt(2.0), foo.distance(bar), 1e-8);
+
+ LanguageProfile foobar = new LanguageProfile();
+ assertTrue(foo.distance(foobar) == bar.distance(foobar));
+
+ foobar.add("foo");
+ assertTrue( foo.distance(foobar) < bar.distance(foobar));
+
+ foobar.add("bar");
+ assertTrue(foo.distance(foobar) == bar.distance(foobar));
+ }
+
+}
diff --git a/tika-core/src/test/java/org/apache/tika/language/LanguageProfilerBuilderTest.java b/tika-core/src/test/java/org/apache/tika/language/LanguageProfilerBuilderTest.java
new file mode 100644
index 0000000000..dbdda34c11
--- /dev/null
+++ b/tika-core/src/test/java/org/apache/tika/language/LanguageProfilerBuilderTest.java
@@ -0,0 +1,101 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.tika.language;
+
+import static java.nio.charset.StandardCharsets.UTF_8;
+import static org.junit.Assert.assertEquals;
+import static org.junit.Assert.assertTrue;
+
+import java.io.BufferedReader;
+import java.io.File;
+import java.io.FileInputStream;
+import java.io.FileOutputStream;
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.InputStreamReader;
+import java.net.URISyntaxException;
+
+import org.apache.tika.exception.TikaException;
+import org.junit.After;
+import org.junit.Test;
+
+@Deprecated
+public class LanguageProfilerBuilderTest {
+ /* Test members */
+ private LanguageProfilerBuilder ngramProfile = null;
+ private LanguageProfile langProfile = null;
+ private final String profileName = "../tika-core/src/test/resources/org/apache/tika/language/langbuilder/"
+ + LanguageProfilerBuilderTest.class.getName();
+ private final String corpusName = "langbuilder/welsh_corpus.txt";
+ private final String FILE_EXTENSION = "ngp";
+ private final String LANGUAGE = "welsh";
+ private final int maxlen = 1000;
+
+ @Test
+ public void testCreateProfile() throws TikaException, IOException, URISyntaxException {
+ try (InputStream is = LanguageProfilerBuilderTest.class.getResourceAsStream(corpusName)) {
+ ngramProfile = LanguageProfilerBuilder.create(profileName, is, UTF_8.name());
+ }
+
+ File f = new File(profileName + "." + FILE_EXTENSION);
+ FileOutputStream fos = new FileOutputStream(f);
+ ngramProfile.save(fos);
+ fos.close();
+ assertEquals(maxlen, ngramProfile.getSorted().size());
+ }
+
+ @Test
+ public void testNGramProfile() throws IOException, TikaException, URISyntaxException {
+ createLanguageProfile();
+ LanguageIdentifier.addProfile(LANGUAGE, langProfile);
+ LanguageIdentifier identifier = new LanguageIdentifier(langProfile);
+ assertEquals(LANGUAGE, identifier.getLanguage());
+ assertTrue(identifier.isReasonablyCertain());
+ }
+
+ private void createLanguageProfile() throws IOException, TikaException, URISyntaxException {
+ // Sort of dependency injection
+ if (ngramProfile == null)
+ testCreateProfile();
+
+ langProfile = new LanguageProfile();
+
+ try (InputStream stream = new FileInputStream(new File(profileName + "." + FILE_EXTENSION))) {
+ BufferedReader reader = new BufferedReader(new InputStreamReader(
+ stream, UTF_8));
+ String line = reader.readLine();
+ while (line != null) {
+ if (line.length() > 0 && !line.startsWith("#")) {// skips the
+ // ngp
+ // header/comment
+ int space = line.indexOf(' ');
+ langProfile.add(line.substring(0, space),
+ Long.parseLong(line.substring(space + 1)));
+ }
+ line = reader.readLine();
+ }
+ }
+ }
+
+ @After
+ public void tearDown() throws Exception {
+ File profile = new File(profileName + "." + FILE_EXTENSION);
+ if (profile.exists())
+ profile.delete();
+ }
+}
diff --git a/tika-core/src/test/java/org/apache/tika/language/ProfilingWriterTest.java b/tika-core/src/test/java/org/apache/tika/language/ProfilingWriterTest.java
new file mode 100644
index 0000000000..b43b7e5fd5
--- /dev/null
+++ b/tika-core/src/test/java/org/apache/tika/language/ProfilingWriterTest.java
@@ -0,0 +1,45 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.tika.language;
+
+import static org.junit.Assert.assertEquals;
+
+import java.io.IOException;
+
+import org.junit.Test;
+
+@Deprecated
+public class ProfilingWriterTest {
+
+ @Test
+ public void testProfilingWriter() throws IOException {
+ ProfilingWriter writer = new ProfilingWriter();
+ writer.write(" foo+BAR FooBar\n");
+ writer.close();
+
+ LanguageProfile profile = writer.getProfile();
+ assertEquals(2, profile.getCount("_fo"));
+ assertEquals(2, profile.getCount("foo"));
+ assertEquals(1, profile.getCount("oo_"));
+ assertEquals(1, profile.getCount("oob"));
+ assertEquals(1, profile.getCount("oba"));
+ assertEquals(1, profile.getCount("_ba"));
+ assertEquals(2, profile.getCount("bar"));
+ assertEquals(2, profile.getCount("ar_"));
+ }
+
+}
diff --git a/tika-core/src/test/resources/org/apache/tika/language/da.test b/tika-core/src/test/resources/org/apache/tika/language/da.test
new file mode 100644
index 0000000000..1238cd5874
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/da.test
@@ -0,0 +1,108 @@
+Genoptagelse af sessionen
+Jeg erklærer Europa-Parlamentets session, der blev afbrudt fredag den 17. december, for genoptaget. Endnu en gang vil jeg ønske Dem godt nytår, og jeg håber, De har haft en god ferie.
+Som De kan se, indfandt det store "år 2000-problem" sig ikke. Til gengæld har borgerne i en del af medlemslandene været ramt af meget forfærdelige naturkatastrofer. De har udtrykt ønske om en debat om dette emne i løbet af mødeperioden. I mellemtiden ønsker jeg - som også en del kolleger har anmodet om - at vi iagttager et minuts stilhed til minde om ofrene for bl.a. stormene i de medlemslande, der blev ramt. Jeg opfordrer Dem til stående at iagttage et minuts stilhed.
+(Parlamentet iagttog stående et minuts stilhed
+
+Fru formand, en bemærkning til forretningsordenen. Gennem pressen og tv vil De være bekendt med en række bombeeksplosioner og drab i Sri Lanka. En af de personer, der blev myrdet for ganske nylig i Sri Lanka, var hr. Kumar Ponnambalam, der besøgte Europa-Parlamentet for få måneder siden. Ville det være passende, hvis De, fru formand, sendte en skrivelse til Sri Lankas præsident for at udtrykke vores dybe beklagelse i forbindelse med Kumar Ponnambalams død og de andre voldsomme dødsfald i Sri Lanka og for indtrængende at anmode præsidenten om at gøre alt for at opnå en fredelig løsning på en meget vanskelig situation?
+
+Ja, hr. Evans, jeg mener, at et initiativ, som det, De foreslår, ville være meget hensigtsmæssigt. Hvis Europa-Parlamentet er enigt, vil jeg gøre, som hr. Evans har foreslået.
+
+Fru formand, en bemærkning til forretningsordenen. Jeg vil gerne have Deres råd om artikel 143 vedrørende afvisning. Mit spørgsmål omhandler et emne, der vil blive behandlet på torsdag, og jeg vil gerne tage emnet op igen ved den lejlighed.
+Betænkningen af Cunha om flerårige udviklingsprogrammer skal forhandles af Parlamentet på torsdag og indeholder et forslag i punkt 6 om, at der skal indføres kvotesanktioner for lande, der ikke overholder deres årlige målsætninger for flådereduktion. Dette skal i henhold til punkt 6 indføres til trods for princippet om relativ stabilitet. Jeg mener, at princippet om relativ stabilitet er et grundlæggende retsprincip for den fælles fiskeripolitik, og at der vil være juridisk belæg for at afvise et forslag om at undergrave dette princip. Jeg vil gerne vide, om man kan gøre indsigelse mod noget, der bare er en betænkning og ikke et forslag til retsakt, og om det er noget, jeg kan gøre på torsdag?
+
+Det er netop dér, De - hvis De ønsker det - kan rejse dette spørgsmål, det vil sige på torsdag ved forhandlingens begyndelse.
+
+Fru formand, samtidig med Europa-Parlamentets første mødeperiode i år har man i Texas i USA fastsat datoen for henrettelsen af en dødsdømt, nemlig en ung mand på 34 år ved navn Hicks, og det er desværre på næste torsdag.
+På anmodning af et fransk parlamentsmedlem, hr. Zimeray, er der allerede indgivet et andragende, som mange har skrevet under på, heriblandt undertegnede, men i tråd med den holdning, som Europa-Parlamentet og hele Det Europæiske Fællesskab konstant giver udtryk for, anmoder jeg Dem om at gøre den indflydelse, De har i kraft af Deres embede og den institution, De repræsenterer, gældende over for præsidenten og Texas' guvernør Bush, som har beføjelse til at ophæve dødsdommen og benåde den dømte.
+Alt dette er i tråd med de principper, vi altid har været tilhængere af.
+
+Tak, hr. Segni, det gør jeg med glæde. Det er således helt i tråd med den holdning, Europa-Parlamentet altid har indtaget.
+
+Fru formand, jeg vil gerne gøre Dem opmærksom på en sag, som Parlamentet har beskæftiget sig med gentagne gange. Det drejer sig om Alexander Nikitin. Vi glæder os alle sammen over, at domstolen har frifundet ham og understreget, at adgangen til miljøinformationer også er konstitutionel ret i Rusland. Men nu er det sådan, at han skal anklages igen, fordi statsadvokaten har anket dommen. Vi ved og har fastslået i virkelig mange beslutninger - netop på det sidste møde sidste år - at dette ikke bare er en juridisk sag, og at det er forkert at beskylde Alexander Nikitin for at have begået kriminalitet og forræderi, fordi vi som berørte nyder godt af hans resultater. Disse resultater er grundlaget for de europæiske programmer til beskyttelse af Barentsee, og derfor beder jeg Dem gennemgå et brevudkast, som beskriver de vigtigste fakta, og tydeliggøre denne holdning i Rusland i overensstemmelse med Parlamentets beslutninger.
+
+Ja, fru Schroedter, jeg skal med glæde undersøge dette spørgsmål, når jeg har modtaget Deres brev.
+
+Fru formand, jeg vil gerne først give Dem en kompliment for den kendsgerning, at De har holdt Deres ord, og at antallet af tv-kanaler på vores kontorer faktisk er udvidet enormt nu i denne første mødeperiode i det nye år. Men, fru formand, det, som jeg havde anmodet om, er ikke sket. Der er nu ganske vist to finske kanaler og en portugisisk kanal, men der er stadig ingen nederlandsk kanal, og jeg havde anmodet Dem om en nederlandsk kanal, fordi også nederlændere gerne vil følge med i nyhederne hver måned, når vi forvises til dette sted. Jeg vil således endnu en gang anmode Dem om alligevel at sørge for, at vi også får en nederlandsk kanal.
+
+Fru Plooij-van Gorsel, jeg kan oplyse Dem om, at dette spørgsmål er opført på dagsordenen for kvæstorernes møde på onsdag. Det vil, håber jeg, blive behandlet i en positiv ånd.
+
+Fru formand, kan De fortælle mig, hvorfor Parlamentet ikke overholder de lovgivningsbestemmelser om sundhed og sikkerhed, som det selv har fastsat? Hvorfor er der ikke foretaget en undersøgelse af luftkvaliteten i denne bygning, siden vi blev valgt? Hvorfor har Sundheds- og Sikkerhedsudvalget ikke haft et møde siden 1998? Hvorfor har der ikke været brandøvelser, hverken i parlamentsbygningerne i Bruxelles eller Strasbourg? Hvorfor er der ingen brandinstrukser? Hvorfor etableres der ikke områder med rygeforbud? Det er fuldstændig skandaløst, at vi fastsætter lovgivningsbestemmelser og så ikke overholder dem selv.
+
+Fru Lynne, De har fuldstændig ret, og jeg vil kontrollere, om alle disse ting virkelig ikke er blevet gjort. Jeg vil ligeledes fremlægge problemet for kvæstorerne, og jeg er sikker på, at kvæstorerne vil bestræbe sig på at sørge for, at vi overholder den lovgivning, vi vedtager.
+
+Fru formand, fru Díez González og jeg havde stillet nogle spørgsmål om visse holdninger gengivet i en spansk avis, som næstformanden, fru de Palacio, har givet udtryk for. De kompetente tjenestegrene har ikke opført dem på dagsordenen, fordi de mener, at de blev besvaret ved et tidligere møde.
+Jeg anmoder om, at denne beslutning tages op til fornyet overvejelse, for det er ikke tilfældet. De spørgsmål, der tidligere er blevet besvaret, drejede sig om fru de Palacios medvirken i en bestemt sag og ikke om de erklæringer, som kunne læses i avisen ABC den 18. november sidste år.
+
+Kære kolleger, vi vil undersøge alt dette. Jeg må indrømme, at det hele forekommer mig lidt forvirrende i øjeblikket. Derfor vil vi undersøge det meget omhyggeligt, således at alt er, som det skal være.
+
+Fru formand, jeg vil gerne vide, om der kommer en klar melding fra Parlamentet i denne uge om vores utilfredshed i forbindelse med dagens beslutning om ikke at forlænge embargoen mod våbeneksport til Indonesien i betragtning af, at et stort flertal i Parlamentet tidligere har undertegnet våbenembargoen i Indonesien. Dagens beslutning om ikke at forlænge embargoen er meget farlig på grund af situationen der. Parlamentet bør derfor tilkendegive sin holdning, da det er flertallets ønske. Det er uansvarligt af EU-medlemsstater at nægte at forlænge embargoen. Som nævnt tidligere er der tale om en meget ustabil situation. Der er endog fare for et militærkup i fremtiden. Vi ved ikke, hvad der sker. Så hvorfor skal våbenproducenter i EU profitere på bekostning af uskyldige mennesker?
+
+Under alle omstændigheder er punktet ikke på nuværende tidspunkt opført under forhandlingen om aktuelle og uopsættelige spørgsmål på torsdag.
+
+Arbejdsplan
+Næste punkt på dagsordenen er fastsættelse af arbejdsplanen.
+Det endelige forslag til dagsorden, som det blev opstillet af Formandskonferencen på mødet torsdag den 13. januar i overensstemmelse med forretningsordenens artikel 95, er omdelt.
+Det foreligger ingen forslag til ændring for mandag og tirsdag.
+Onsdag:
+PSE-gruppen anmoder om at få en redegørelse fra Kommissionen om dens strategiske mål for de kommende fem år samt om den administrative reform opført på dagsordenen.
+Hvis hr. Barón Crespo, der har fremsat anmodningen, ønsker det, opfordrer jeg ham til at begrunde sit forslag. Dernæst gør vi, som vi plejer, det vil sige, at vi hører et indlæg for og et indlæg imod forslaget.
+
+Fru formand, forelæggelsen af Prodi-Kommissionens politiske program for hele valgperioden var til at begynde med et forslag fra De Europæiske Socialdemokraters Gruppe, som opnåede enstemmighed på Formandskonferencen i september og også hr. Prodis udtrykkelige accept, og han gentog sit løfte i sin indsættelsestale.
+Dette løfte er vigtigt, fordi Kommissionen er et organ, der har initiativmonopol i henhold til traktaterne og derfor grundlæggende udformer Parlamentets politiske arbejde og lovgivningsarbejde i de kommende fem år. Jeg vil også minde om, fru formand, at Parlamentet to gange i foregående valgperiode ved afstemning gav udtryk for sin tillid til formand Prodi. I denne valgperiode igen i juli og senere, med den nye Kommission på plads, gav det igen i september hele Kommissionen et tillidsvotum. Der har derfor været tid nok til, at Kommissionen kunne forberede sit program, og til at vi kunne få kendskab til det og forklare det til borgerne. I den forbindelse vil jeg minde om beslutningen fra 15. september, hvori der blev henstillet til, at forslaget blev forelagt hurtigst muligt.
+Det, der skete i sidste uge - og som opstod uden for Formandskonferencen, hvor den udelukkende blev brugt til at bekræfte og godkende beslutninger, som var truffet uden for den - skaber et dilemma: Enten er Kommissionen ikke i stand til at fremlægge det program. (I så fald ville det være passende, at den informerede om det. Ifølge kommissionsformandens udsagn er de i stand til at gøre det. Eftersom Kommissionen er repræsenteret af næstformanden, fru de Palacio, mener jeg, at det før afstemningen ville være på sin plads at være på det rene med Kommissionens situation, hvad angår dets vilje til at forelægge programmet, ligesom det var blevet aftalt.) Eller også er Parlamentet ikke i stand til at behandle dette program, som der vist er nogle, der påstår. Efter min mening ville denne anden hypotese være det samme som at give afkald på vores ansvar som parlament og desuden at indføre en original teori, en ukendt metode, der består i skriftligt at give de politiske grupper kendskab til Kommissionens program en uge før - og ikke dagen før, som det var aftalen - i betragtning af, at lovgivningsprogrammet skal diskuteres i februar, således at vi kunne springe forhandlingen over, fordi pressen og Internettet dagen efter havde givet alle borgerne kendskab til det, og Parlamentet ville ikke længere behøve at bekymre sig om sagen.
+Da min gruppe mener, at et parlament er til for at lytte, diskutere og overveje, mener vi, at der ikke er noget som helst, der kan retfærdiggøre denne udsættelse, og vi mener, at hvis Kommissionen er i stand til at gøre det, er der tid nok til, at vi kan genetablere den oprindelige aftale mellem Parlamentet og Kommissionen og handle ansvarligt over for vores medborgere. Derfor går det forslag, som De Europæiske Socialdemokraters Gruppe stiller, og som De har nævnt, ud på, at vi holder fast ved forelæggelsen af Prodi-Kommissionens program for valgperioden på onsdag, og at dette program også omfatter forslaget til administrativ reform, for hvis det ikke bliver sådan, kan vi komme i en paradoksal situation: Med en undskyldning om at der ikke er en tekst, nægtes formanden for Kommissionen på den ene side retten til at tale i Parlamentet, og på den anden side forhindres det, at der finder en forhandling sted om reformen, uden at Parlamentet på forhånd kender de tekster, som den er baseret på. Derfor, fru formand, anmoder jeg Dem om at bede Kommissionen om at udtale sig nu, og at vi derefter går over til afstemning.
+(Bifald fra PSE-gruppen)
+
+Fru formand, kære kolleger, jeg er godt nok noget forbavset over vores kollega Barón Crespos opførsel. Han forlanger nu, at dette punkt sættes på dagsordenen for onsdag.
+Hr. Barón Crespo, De kunne ikke deltage den sidste torsdag på Formandskonferencen. Det kritiserer jeg ikke, for det sker af og til, at man lader sig repræsentere. Hr. Hänsch repræsenterede Dem dér. Vi havde en udførlig debat på Formandskonferencen. Kun Deres gruppe repræsenterede det, som De siger nu. Vi stemte derefter om det. Hver ordfører har jo lige så mange stemmer, som der er medlemmer i gruppen. Der var en afstemning om dette punkt. Så vidt jeg husker, faldt denne afstemning således ud: 422 mod 180 stemmer og nogle få, der undlod at stemme. Det vil sige, at alle grupper med undtagelse af løsgængerne - men de udgør jo ikke nogen gruppe - var enige, kun Deres gruppe mente, at man skulle bære sig sådan ad, som De har foreslået her. Alle andre mente noget andet. Det var beslutningen.
+Nu vil jeg gerne sige noget til selve sagen. Vi har tillid til Kommissionen, til Romano Prodi, og flertallet i vores gruppe har udtrykt tillid til Romano Prodi og Kommissionen efter en vanskelig proces, som alle kender til. Men vi mener også, at vi skal have en debat om Kommissionens strategi i en ordinær procedure, ikke kun på baggrund af en mundtlig forklaring her i Europa-Parlamentet, men også på baggrund af et dokument, som er blevet besluttet i Kommissionen, og som beskriver dette program for fem år. Et sådant dokument findes ikke!
+
+Kommissionen vil fremlægge programmet for år 2000 til februar. Vi har sagt, at hvis Kommissionen ikke ønsker at lave programmet for år 2000 i januar, så gør vi det i februar. Det har vi godkendt. Vi ønsker sådan set ikke nogen konflikt med Kommissionen, vi mener derimod, at hvis det går, skal Kommissionen og Parlamentet gå samme vej. Men Parlamentet er også Kommissionens kontrollør. Og ikke alt, hvad der kommer fra Kommissionen, skal nødvendigvis være i overensstemmelse med os.
+Jeg vil gerne have, at vi får mulighed for at forberede os fornuftigt på en debat om femårsprogrammet i grupperne. Man kan ikke forberede sig, hvis man hører en forklaring her og slet ikke ved, hvad indholdet af en sådan forklaring er. Derfor anbefaler vi - og det er mit indtryk, at Kommissionen også er åben over for denne tanke - at vi fører debatten om Kommissionens langsigtede program frem til år 2005 i februar - jeg håber også, at Kommissionen er blevet enig om et program til den tid, som den vil foreslå os - og at vi samtidig fører en debat om Kommissionens lovgivningsprogram for år 2000 i februar. Det er således også en fornuftig saglig sammenhæng, som råder os til at føre debatten om begge programmer i fællesskab. Derfor afviser min gruppe på det bestemteste Den Socialdemokratiske Gruppes forslag!
+(Bifald fra PPE-DE-gruppen)
+
+Fru formand, jeg vil gøre det meget klart, at Kommissionen først og fremmest har den største respekt for Parlamentets beslutninger, deriblandt opstillingen af dagsordenen. Derfor respekterer vi Parlamentets beslutning, hvad det angår.
+Men jeg vil også gøre det meget klart, at hr. Prodi aftalte med Parlamentet at indføre en ny forhandling, som hr. Barón nok husker, ud over den årlige forhandling om Kommissionens lovgivningsprogram, om hovedlinjerne i aktionerne for den kommende femårsperiode, altså for denne valgperiode.
+Jeg vil sige, fru formand, at denne forhandling i den aftale, som blev indgået i september, adskilte sig fra Kommissionens årlige forelæggelse af programmet for lovgivningen. Og jeg vil sige, fru formand, at vi i Kommissionen er forberedt på og rede til at deltage i den forhandling, når det er belejligt, at vi var rede til at gennemføre den i denne uge, som det var aftalt fra begyndelsen, med udgangspunkt i at den blev forelagt dagen før i en tale til de parlamentariske grupper.
+Jeg vil derfor gentage, fru formand, at vi for vores del har diskuteret handlingsprogrammet for de kommende fem år, og at vi er rede til, når Parlamentet bestemmer det - i denne uge, hvis det er beslutningen - at komme og forelægge programmet for de kommende fem år og i næste måned programmet for 2000, hvilket er helt i overensstemmelse med aftalen.
+
+Jeg foreslår, at vi stemmer om PSE-gruppens anmodning om at få en redegørelse fra Kommissionen om dens strategiske mål genopført på dagsordenen.
+(Forslaget forkastedes) Formanden. Stadig med hensyn til dagsordenen for onsdag har jeg et forslag om de mundtlige forespørgsler om kapitalskat. PPE-DE-gruppen ønsker, at dette punkt tages af dagsordenen.
+Ønsker nogen at tage ordet på vegne af gruppen for at begrunde denne anmodning?
+
+Fru formand, da jeg kan høre en smule latter fra Socialdemokraterne - jeg har fået fortalt, at brede kredse i Den Socialdemokratiske Gruppe også gerne vil have taget dette punkt af dagsordenen, fordi der ved afstemningen på Formandskonferencen ikke forelå noget votum fra arbejdsgruppen af ansvarlige kolleger i Den Socialdemokratiske Gruppe. Jeg ved ikke, om denne oplysning er rigtig, men PPE-DE-gruppen ville i hvert fald være taknemmelig, hvis dette punkt blev annulleret, fordi Parlamentet allerede har beskæftiget sig med dette spørgsmål flere gange. Der er også truffet beslutninger mod en sådan skat. Derfor anmoder min gruppe om, at dette punkt tages af dagsordenen.
+
+Tak, hr. Poettering.
+Vi skal nu høre hr. Wurtz, der er imod forslaget.
+
+Fru formand, jeg vil først og fremmest fremhæve hr. Poetterings manglende konsekvens. For et øjeblik siden belærte han socialdemokraterne, fordi de ville ændre en klar beslutning truffet på Formandskonferencen. Imidlertid gør han det samme. Vi havde en diskussion, vi var alle - på nær PPE-DE-gruppen og Den Liberale Gruppe - enige, og jeg bemærkede endda - som De sikkert husker, kære medformænd - at det ikke drejede sig om, hvorvidt De er for eller imod Tobin-afgiften, men om De turde høre, hvad Kommissionen og Rådet mente om den. Dette er ikke for meget forlangt. Derfor fastholder jeg forslaget om at bevare det mundtlige spørgsmål til Kommissionen og Rådet, således at vi én gang for alle får opklaret, hvilken holdning de to institutioner har til dette ret beskedne forslag, som dog sender et vigtigt signal til befolkningen, navnlig efter fiaskoen i Seattle.
+
+Vi skal stemme om PPE-DE-gruppens anmodning om, at de mundtlige forespørgsler om kapitalskat tages af dagsordenen.
+(Forslaget forkastedes. 164 stemte for, 166 stemte imod, og 7 undlod at stemme)
+
+Fru formand, jeg vil gerne takke hr. Poettering for den reklame, han netop har gjort for denne debat. Tak.
+
+Fru formand, er min stemme, som jeg ikke kunne afgive elektronisk, fordi jeg ikke har kortet, blevet talt med? Jeg stemte for.
+
+Det er rigtigt. Hvis vi tilføjer de to kolleger, der har givet sig til kende, bliver resultatet ...
+
+Fru formand, formandskabet har bekendtgjort afstemningens udfald. Det kan der ikke laves om på.
+
+Kære kolleger, jeg minder endnu en gang om, at det er vigtigt, at alle har deres kort om mandagen. Det er tydeligt, at vi har et problem, og jeg må derfor træffe en beslutning.
+Jeg har også glemt mit kort, og jeg ville have stemt imod. Derfor mener jeg, at det mundtlige spørgsmål fortsat skal medtages på dagsordenen.
+Det er sidste gang, vi vil tage hensyn til glemte kort. Lad dette være helt klart, og husk det.
+(Bifald)
+Ja, det mundtlige spørgsmål er fortsat opført på dagsordenen, og ja, formanden har ret til at stemme, ligesom hun har ret til at glemme sit kort.
+Vi fortsætter nu med de øvrige ændringer af dagsordenen.
+
+Fru formand, i den tidligere afstemning - og jeg vil rette mig efter Deres afgørelse om dette emne - om spørgsmålet om Kommissionens redegørelse om dens strategiske mål gav jeg udtryk for, at jeg gerne ville tale på vegne af min gruppe før afstemningen. Det blev ikke til noget. Jeg vil sætte pris på at få lejlighed til at afgive stemmeforklaring på vegne af min gruppe i forbindelse med afslutningen af dette spørgsmål. Det er et vigtigt spørgsmål, og det vil være nyttigt for Parlamentet, hvis det er angivet, hvordan de forskellige personer opfatter vores handlinger i lyset af deres egne politiske analyser.
+
+Fru formand, jeg vil ikke genoptage debatten, men jeg havde også meldt mig for at tage stilling til hr. Barón Crespos ændringsforslag. De råbte mig heller ikke op. Det beklager jeg, men afstemningen er gennemført, afgørelsen er truffet, vi lader det altså ligge.
+
+Jeg beklager, hr. Hänsch og hr. Cox, jeg så ikke, at De anmodede om ordet. Men i øvrigt mener jeg, at holdningerne er meget klare, og de vil blive indført i protokollen. Når vi i morgen skal vedtage protokollen for i dag, kan de kolleger, der ikke synes, at holdningerne er blevet tilstrækkeligt forklaret, anmode om ændringer. Det, mener jeg, er en god løsning. Selvfølgelig vil protokollen for mødet i morgen tage hensyn til alle de supplerende forklaringer. Jeg mener, at det er en bedre løsning end at gå over til stemmeforklaringer på nuværende tidspunkt, som ville være et stort sidespring. Hr. Cox og hr. Hänsch, passer denne løsning Dem?
+
+Fru formand, hvis protokollen giver korrekt udtryk for min gruppes holdning i forbindelse med afstemningen, vil og kan jeg ikke gøre indsigelser. Hvis De afgør, at der ikke er grund til at afgive stemmeforklaring, vil jeg acceptere det, men med forbehold.
+
+Vi vil derfor være meget opmærksomme på udarbejdelsen af protokollen. Det er vi i øvrigt altid. Hvis holdningerne ikke klart fremgår, kan vi eventuelt ændre den.
+(Den således ændrede dagsorden godkendtes)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/de.test b/tika-core/src/test/resources/org/apache/tika/language/de.test
new file mode 100644
index 0000000000..9d6e5c9763
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/de.test
@@ -0,0 +1,104 @@
+Wiederaufnahme der Sitzungsperiode
+Ich erkläre die am Freitag, dem 17. Dezember unterbrochene Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen, wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe, daß Sie schöne Ferien hatten.
+Wie Sie feststellen konnten, ist der gefürchtete "Millenium-Bug " nicht eingetreten. Doch sind Bürger einiger unserer Mitgliedstaaten Opfer von schrecklichen Naturkatastrophen geworden. Im Parlament besteht der Wunsch nach einer Aussprache im Verlauf dieser Sitzungsperiode in den nächsten Tagen. Heute möchte ich Sie bitten - das ist auch der Wunsch einiger Kolleginnen und Kollegen -, allen Opfern der Stürme, insbesondere in den verschiedenen Ländern der Europäischen Union, in einer Schweigeminute zu gedenken. Ich bitte Sie, sich zu einer Schweigeminute zu erheben.
+(Das Parlament erhebt sich zu einer Schweigeminute.)
+
+Frau Präsidentin, zur Geschäftsordnung. Wie Sie sicher aus der Presse und dem Fernsehen wissen, gab es in Sri Lanka mehrere Bombenexplosionen mit zahlreichen Toten. Zu den Attentatsopfern, die es in jüngster Zeit in Sri Lanka zu beklagen gab, zählt auch Herr Kumar Ponnambalam, der dem Europäischen Parlament erst vor wenigen Monaten einen Besuch abgestattet hatte. Wäre es angemessen, wenn Sie, Frau Präsidentin, der Präsidentin von Sri Lanka in einem Schreiben das Bedauern des Parlaments zum gewaltsamen Tod von Herrn Ponnambalam und anderen Bürgern von Sri Lanka übermitteln und sie auffordern würden, alles in ihrem Kräften stehende zu tun, um nach einer friedlichen Lösung dieser sehr schwierigen Situation zu suchen?
+
+Ja, Herr Evans, ich denke, daß eine derartige Initiative durchaus angebracht ist. Wenn das Haus damit einverstanden ist, werde ich dem Vorschlag von Herrn Evans folgen.
+
+Frau Präsidentin, zur Geschäftsordnung. Könnten Sie mir eine Auskunft zu Artikel 143 im Zusammenhang mit der Unzulässigkeit geben? Meine Frage betrifft eine Angelegenheit, die am Donnerstag zur Sprache kommen wird und auf die ich dann erneut verweisen werde.
+Das Parlament wird sich am Donnerstag mit dem Cunha-Bericht über mehrjährige Ausrichtungsprogramme befassen, der in Absatz 6 vorschlägt, daß Länder, die ihr Soll zur Flottenverkleinerung nicht erfüllen, jährlich mit einer Art Quotenstrafe belegt werden sollen. Und zwar sollen derartige Strafen trotz des Grundsatzes der relativen Stabilität verhängt werden. Ich meine, daß der Grundsatz der relativen Stabilität einen elementaren Rechtsgrundsatz der gemeinsamen Fischereipolitik darstellt und ein Vorschlag, diesen zu unterlaufen, rechtlich unzulässig wäre. Ich möchte wissen, ob es möglich ist, einen Einwand gegen ein Dokument zu erheben, bei dem es sich lediglich um einen Bericht und keinen Legislativvorschlag handelt, und ob ich befugt bin, dies am Donnerstag zu tun.
+
+Genau dann können Sie, wenn Sie wollen, diese Frage ansprechen, d. h. am Donnerstag zu Beginn der Aussprache über den Bericht.
+
+Frau Präsidentin! Die erste diesjährige Tagung des Europäischen Parlaments fällt leider damit zusammen, daß in den Vereinigten Staaten, in Texas, für Donnerstag dieser Woche die Hinrichtung eines zum Tode verurteilten 34jährigen jungen Mannes namens Hicks festgelegt worden ist.
+Auf Wunsch eines französischen Mitglieds, Herrn Zimeray, wurde bereits eine Petition eingereicht, die von vielen, auch von mir selbst, unterzeichnet worden ist. Gemäß der vom Europäischen Parlament und von der gesamten Europäischen Union nunmehr ständig vertretenen Linie möchte ich Sie jedoch bitten, den ganzen Einfluß Ihres Amtes und der Institution, die Sie vertreten, bei dem Präsidentschaftskandidaten und Gouverneur von Texas, George W. Bush, der zur Aussetzung der Vollstreckung des Todesurteils und zur Begnadigung des Verurteilten befugt ist, geltend zu machen.
+All dies entspricht den Grundsätzen, die wir stets verteidigt haben.
+
+Vielen Dank, Herr Segni, das will ich gerne tun. Das ist ganz im Sinne der Position, die wir als Parlament immer vertreten haben.
+
+Frau Präsidentin! Ich möchte Sie auf einen Fall aufmerksam machen, mit dem sich dieses Parlament immer wieder befaßt hat. Das ist der Fall von Alexander Nikitin. Wir freuen uns hier alle, daß das Gericht ihn freigesprochen und deutlich gemacht hat, daß auch in Rußland der Zugang zu Umweltinformationen konstitutionelles Recht ist. Nun ist es aber so, daß er wieder angeklagt werden soll, weil der Staatsanwalt in Berufung geht. Wir wissen und wir haben es in wirklich sehr vielen Entschließungen festgestellt - gerade während der letzten Plenartagung des vergangenen Jahres-, daß dies nicht nur ein juristischer Fall ist und daß es falsch ist, Alexander Nikitin Kriminalität und Verrat vorzuwerfen, weil wir als Betroffene von seinen Ergebnissen einen Nutzen haben. Diese Ergebnisse sind die Grundlage für die europäischen Programme zum Schutz der Barentsee, und deswegen bitte ich Sie, einen Briefentwurf, der Ihnen die wichtigsten Fakten schildert, zu prüfen und im Sinne der Beschlüsse des Parlaments in Rußland diese Position deutlich zu machen.
+
+Frau Schroedter, ich bin gerne bereit, die damit zusammenhängenden Fakten zu prüfen, wenn mir Ihr Brief vorliegt.
+
+Frau Präsidentin, zunächst besten Dank dafür, daß Sie Wort gehalten haben und nun in der ersten Sitzungsperiode des neuen Jahres das Angebot an Fernsehprogrammen in unseren Büros tatsächlich enorm erweitert ist. Dennoch, Frau Präsidentin, wurde meinem Wunsch nicht entsprochen. Zwar können wir jetzt zwei finnische und einen portugiesischen, nach wie vor aber keinen niederländischen Sender empfangen. Ich hatte Sie aber um ein niederländisches Programm gebeten, denn auch wir Niederländer möchten die Nachrichten verfolgen, wenn wir jeden Monat hierher in die Verbannung geschickt werden. Deshalb möchte ich Sie nochmals ersuchen, dafür Sorge zu tragen, daß auch ein niederländischer Sender eingespeist wird.
+
+Frau Plooij-van Gorsel, ich kann Ihnen mitteilen, daß dieser Punkt am Mittwoch auf der Tagesordnung der Quästoren steht. Ich hoffe, daß dort in Ihrem Sinne entschieden wird.
+
+Frau Präsidentin, können Sie mir sagen, warum sich dieses Parlament nicht an die Arbeitsschutzregelungen hält, die es selbst verabschiedet hat? Weshalb wurde die Luftqualität in diesem Gebäude seit unserer Wahl nicht ein einziges Mal überprüft? Weshalb ist der Arbeitsschutzausschuß seit 1998 nicht ein einziges Mal zusammengetreten? Warum hat weder im Brüsseler noch im Straßburger Parlamentsgebäude eine Brandschutzübung stattgefunden? Warum finden keine Brandschutzbelehrungen statt? Warum wurde nach meinem Unfall nichts unternommen, um die Treppen sicherer zu machen? Warum wird in den Nichtraucherzonen das Rauchverbot nicht durchgesetzt? Es ist eine Schande, daß wir Regeln verabschieden, an die wir uns dann selbst nicht halten.
+
+Frau Lynne, Sie haben völlig recht, und ich werde prüfen, ob all dies wirklich so ist. Ich werde die Frage auch den Quästoren unterbreiten. Ich bin mir sicher, daß diese großen Wert darauf legen, daß wir die Rechtsvorschriften, die wir verabschieden, auch selbst einhalten.
+
+Frau Präsidentin! Frau Díez González und ich hatten einige Anfragen zu bestimmten, in einer spanischen Zeitung wiedergegebenen Stellungnahmen der Vizepräsidentin, Frau de Palacio, gestellt. Die zuständigen Dienste haben sie nicht in die Tagesordnung aufgenommen, da sie der Meinung waren, sie seien schon in einer vorangegangenen Sitzung beantwortet worden.
+Ich bitte, diese Entscheidung zu überdenken, weil das nicht der Fall ist. Die früher beantworteten Anfragen bezogen sich auf das Auftreten von Frau de Palacio in einer bestimmten Angelegenheit, nicht auf die am 18. November des vergangenen Jahres in der Tageszeitung ABC erschienenen Erklärungen.
+
+Lieber Kollege, wir werden das prüfen. Ich muß Ihnen aber sagen, daß ich die Lage im Moment für etwas verworren halte. Wir werden das aber sehr genau prüfen, damit alles seine Richtigkeit hat.
+
+Frau Präsidentin, ich wüßte gern, ob das Parlament in dieser Woche ein deutliches Signal unserer Unzufriedenheit bezüglich der heutigen Entscheidung, mit der eine Verlängerung des Waffenembargos gegen Indonesien abgelehnt wird, aussenden wird, zumal sich die große Mehrheit in diesem Parlament in der Vergangenheit für das Waffenembargo gegen Indonesien ausgesprochen hat. Die heutige Entscheidung gegen eine Verlängerung des Embargos birgt angesichts der dortigen Lage eine sehr große Gefahr. Das Parlament sollte, da dies dem Wunsch der großen Mehrheit entspricht, eine entsprechende Botschaft senden. Die Ablehnung einer Verlängerung des Embargos seitens der EU-Mitgliedstaaten ist unverantwortlich. Wie bereits festgestellt wurde, ist die Lage in Indonesien äußerst instabil. Es besteht sogar die Gefahr eines Militärputsches. Wir wissen nicht, was passiert. Weshalb also sollten Waffenhersteller in der EU auf Kosten unschuldiger Menschen Profite einstreichen?
+
+Dieser Punkt ist bisher nicht für die Dringlichkeitsdebatte am Donnerstag vorgesehen.
+
+Arbeitsplan
+Nach der Tagesordnung folgt die Prüfung des endgültigen Entwurfs der Tagesordnung, wie er nach Artikel 110 der Geschäftsordnung am Donnerstag, dem 13. Januar von der Konferenz der Präsidenten festgelegt wurde. Zu Montag und Dienstag liegen keine Änderungen vor.
+Zum Mittwoch:
+Die Sozialdemokratische Fraktion beantragt, eine Erklärung der Kommission über ihre strategischen Ziele für die nächsten fünf Jahre sowie über die Verwaltungsreform der Kommission in die Tagesordnung aufzunehmen.
+Ich bitte den Antragsteller, Herrn Barón Crespo, seinen Antrag zu begründen, falls er dies wünscht. Danach verfahren wir wie üblich: ein Redner dafür, einer dagegen.
+
+Frau Präsidentin! Die Vorstellung des politischen Programms der Kommission Prodi für die gesamte Wahlperiode ging auf einen Vorschlag der Fraktion der Sozialdemokratischen Partei Europas zurück, der die einhellige Billigung der Konferenz der Präsidenten im September und auch die ausdrückliche Zustimmung von Präsident Prodi fand, der seine Zusage in seiner Antrittsrede bekräftigte.
+Diese Zusage ist insofern von Bedeutung, als die Kommission ein Organ ist, das nach den Verträgen das Initiativmonopol besitzt und somit grundlegend die politische und legislative Tätigkeit dieses Parlaments in den nächsten fünf Jahren gestaltet. Ich möchte auch daran erinnern, daß dieses Parlament in der vorangegangenen Wahlperiode Präsident Prodi zweimal sein Vertrauen ausgesprochen hat; in dieser Wahlperiode sprach es ihm im Juli erneut sein Vertrauen aus, und dann, als die neue Kommission im Amt war, gab es im September erneut ein Vertrauensvotum für die Kommission insgesamt. Somit hatte die Kommission bereits genügend Zeit, ihr Programm zu erarbeiten, und wir, um es kennenlernen und den Bürgern erklären zu können. In diesem Sinne erinnere ich an die Entschließung vom 15. September, in der empfohlen wurde, den Vorschlag in der kürzestmöglichen Frist vorzulegen.
+Die Ereignisse der vergangenen Woche - die am Rande der Konferenz der Präsidenten ihren Anfang nahmen und wobei diese Konferenz nur zur Bestätigung und Ratifizierung von außerhalb gefaßten Beschlüssen genutzt wurde - verdeutlichen ein Dilemma: Entweder ist die Kommission nicht in der Lage, dieses Programm vorzulegen (In diesem Fall sollte sie eine Klärung herbeiführen. Nach den Worten ihres Präsidenten ist sie dazu in der Lage. Da die Kommission durch die Vizepräsidentin, Frau de Palacio, vertreten ist, halte ich es für zweckmäßig, vor der Abstimmung die Position der Kommission hinsichtlich ihrer Bereitschaft zur Vorstellung des Programms, so wie es vereinbart war, zu erfahren.), oder das Parlament ist zur Prüfung dieses Programms nicht in der Lage, wie einige offenbar vorgeben. Nach meiner Ansicht würde diese zweite Hypothese einem Verzicht auf unsere Verantwortung als Parlament und darüber hinaus dem Aufwerfen einer originellen These, einer unbekannten Methode gleichkommen, die darin bestände, den Fraktionen die programmatische Rede der Kommission in schriftlicher Form eine Woche vorher - und nicht, wie vereinbart, am Tag zuvor - zur Kenntnis zu geben, wobei zu berücksichtigen ist, daß das Legislativprogramm im Februar diskutiert werden wird, so daß wir auf die Aussprache verzichten könnten, da die Presse und das Internet am Tag darauf alle Bürger darüber informiert haben würden und das Parlament keinen Grund mehr hätte, sich mit der Angelegenheit zu befassen.
+Da meine Fraktion der Meinung ist, daß ein Parlament dazu da ist, zuzuhören, zu diskutieren und nachzudenken, gibt es unserer Ansicht nach keinen Grund zur Rechtfertigung dieser Verzögerung, und wir glauben, wenn die Kommission dazu in der Lage ist, liegen wir genau in der Zeit, um die ursprüngliche Vereinbarung zwischen dem Parlament und der Kommission wieder in Kraft zu setzen und verantwortungsbewußt vor unsere Mitbürgerinnen und Mitbürgern treten zu können. Deshalb besteht der Vorschlag der Fraktion der Sozialdemokratischen Partei Europas, den Sie erwähnt haben, darin, den Mittwoch als Termin der Vorstellung des Programms der Kommission Prodi für die Wahlperiode beizubehalten, und in dieses Programm auch das Verwaltungsreformprojekt einzubeziehen, da wir andernfalls in eine paradoxe Situation geraten könnten: Mit der Ausrede, der Wortlaut liege nicht vor, wird einerseits dem Präsidenten der Kommission das Recht abgesprochen, in diesem Parlament zu sprechen, und andererseits würde eine Aussprache über die Reform stattfinden, ohne daß dieses Parlament zuvor die Texte lesen konnte, die der Aussprache zugrunde liegen. Daher bitte ich Sie, Frau Präsidentin, die Kommission zu ersuchen, sich jetzt zu äußern, und danach zur Abstimmung zu schreiten.
+(Beifall der PSE-Fraktion)
+
+Frau Präsidentin, liebe Kolleginnen und Kollegen! Ich bin doch etwas erstaunt über das Verhalten des Kollegen Barón Crespo, der jetzt verlangt, daß dieser Tagesordnungspunkt auf die Tagesordnung für Mittwoch gesetzt wird.
+Herr Kollege Barón Crespo, Sie konnten am letzten Donnerstag in der Konferenz der Präsidenten nicht anwesend sein. Das kritisiere ich nicht; es kommt immer mal vor, daß man sich vertreten läßt. Der Kollege Hänsch hat Sie dort vertreten. Wir haben in der Konferenz der Präsidenten eine ausführliche Debatte geführt. Nur Ihre Fraktion hat das vertreten, was Sie jetzt sagen. Wir haben dann abgestimmt. Jeder Vorsitzende bzw. jede Vorsitzende hat ja so viele Stimmen, wie die Fraktion Mitglieder hat. Es gab eine Abstimmung zu diesem Punkt. Diese Abstimmung ist meiner Erinnerung nach so ausgegangen: 422 gegen 180 Stimmen bei einigen wenigen Enthaltungen. Das heißt, alle Fraktionen, mit Ausnahme der Fraktionslosen - aber die sind ja keine Fraktion - waren sich einig, nur Ihre Fraktion war der Meinung, so zu verfahren, wie Sie es hier vorgeschlagen haben. Alle anderen waren anderer Meinung. Das war der Beschluß.
+Jetzt möchte ich zur Sache selbst etwas sagen. Wir haben Vertrauen zur Kommission, zu Romano Prodi, und die ganz große Mehrheit unserer Fraktion hat Romano Prodi und der Kommission nach einem schwierigen Prozeß, wie jeder weiß, das Vertrauen ausgesprochen. Aber wir sind auch der Meinung, daß wir eine Debatte über diese Strategie der Kommission in einem geordneten Verfahren führen müssen, nicht nur aufgrund einer mündlichen Erklärung hier im Europäischen Parlament, sondern auch aufgrund eines Dokumentes, das in der Kommission beschlossen ist und dieses Programm für fünf Jahre beschreibt. Ein solches Dokument gibt es nicht!
+
+Die Kommission wird das Programm für das Jahr 2000 im Februar vorlegen. Wir haben gesagt, o. k, wenn die Kommission das Programm 2000 noch nicht im Januar machen will, dann machen wir das im Februar. Wir haben dem zugestimmt. Wir wollen ja an sich keinen Streit mit der Kommission, sondern wir sind der Meinung, wenn es eben geht, müssen Kommission und Parlament einen gemeinsamen Weg gehen. Aber wir als Parlament sind auch der Kontrolleur der Kommission. Und nicht alles, was von der Kommission kommt, muß unsere Meinung sein.
+Ich möchte, daß wir uns auf eine Debatte über das Fünfjahresprogramm in den Fraktionen vernünftig vorbereiten können. Man kann sich nicht vorbereiten, wenn man hier eine Erklärung hört und gar nicht weiß, was Inhalt einer solchen Erklärung ist. Deswegen ist es unsere Empfehlung - und mein Eindruck ist, daß die Kommission auch aufgeschlossen ist für diesen Gedanken -, daß wir im Februar die Debatte über das langfristige Programm der Kommission bis zum Jahre 2005 führen - ich hoffe, die Kommission wird sich bis dahin auch auf ein Programm verständigen, das sie uns vorschlagen wird -, und daß wir gleichzeitig im Februar auch die Debatte über das Legislativprogramm der Kommission für das Jahr 2000 führen. Es ist also auch ein vernünftiger sachlicher Zusammenhang, der uns rät, die Debatte über beide Programme gemeinsam zu führen. Deswegen lehnt meine Fraktion den Vorschlag der Sozialistischen Fraktion entschieden ab!
+(Beifall von der PPE-DE-Fraktion)
+
+Frau Präsidentin! Ich möchte ganz deutlich sagen, daß die Kommission vor allem höchsten Respekt gegenüber den Beschlüssen dieses Parlaments hat, und dazu gehört die Aufstellung seiner Tagesordnung. Deshalb respektieren wir die Entscheidungen des Parlaments in diesem Sinne. Aber ich möchte auch ganz deutlich zum Ausdruck bringen, daß sich Präsident Prodi gegenüber dem Parlament, wie Herr Barón in Erinnerung brachte, zu einer neuen Aussprache verpflichtet hat, die zusätzlich zu der Jahresaussprache über das Legislativprogramm der Kommission, über die großen Aktionslinien für den nächsten Fünfjahreszeitraum, das heißt, für diese Wahlperiode, stattfinden soll.
+Ich möchte sagen, daß diese Aussprache in der im September getroffenen Vereinbarung von der Jahresvorlage des Legislativprogramms der Kommission abgetrennt wurde. Und ich möchte auch sagen, daß wir seitens der Kommission auf diese Aussprache vorbereitet und bereit sind, sie zum geeigneten Zeitpunkt zu führen, daß wir für diese Woche darauf vorbereitet waren, wie dies grundsätzlich vereinbart war, wobei man am Vorabend vor den Fraktionen des Parlaments mit einer Rede auftreten wollte.
+Deshalb, Frau Präsidentin, möchte ich bekräftigen, daß wir unsererseits das Aktionsprogramm für die nächsten fünf Jahre diskutiert haben und darauf vorbereitet sind, sofern es vom Parlament so beschlossen wird - noch in dieser Woche, wenn der Beschluß so lautet -, das Fünfjahresprogramm und im nächsten Monat das Programm für das Jahr 2000, genau so wie vereinbart, vorzustellen.
+
+Ich schlage vor, daß wir über den Antrag der Sozialdemokratischen Fraktion, die Erklärung der Kommission über ihre strategischen Ziele wieder auf die Tagesordnung zu setzen, abstimmen.
+(Das Parlament lehnt den Antrag ab.) Die Präsidentin. Zum Mittwoch liegt mir noch ein weiterer Antrag betreffend die mündliche Anfrage über die Kapitalsteuer vor. Die PPE/DE-Fraktion beantragt, diesen Punkt von der Tagesordnung abzusetzen.
+Möchte jemand den Antrag im Namen der Fraktion begründen?
+
+Frau Präsidentin, da ich bei den Sozialisten ein bißchen Gelächter höre - mir wurde gesagt, daß auch weite Kreise der Sozialistischen Fraktion diesen Tagesordnungspunkt gern abgesetzt haben wollen, weil bei der Abstimmung in der Konferenz der Präsidenten das Votum der Arbeitsgruppe der zuständigen Kolleginnen und Kollegen der Sozialistischen Fraktion nicht vorlag. Ich weiß nicht, ob diese Information richtig ist, aber wir als EVP-ED-Fraktion wären jedenfalls dankbar, wenn dieser Punkt abgesetzt würde, weil sich das Parlament nämlich schon mehrfach mit dieser Frage befaßt hat. Es gibt auch Beschlüsse gegen eine solche Steuer. Deswegen beantragt meine Fraktion, diesen Punkt von der Tagesordnung abzusetzen.
+
+Vielen Dank, Herr Poettering.
+Wir kommen nun zu Herrn Wurtz, der gegen den Antrag spricht.
+
+Frau Präsidentin, ich möchte zunächst darauf hinweisen, daß das, was Herr Poettering da sagt, nicht ganz logisch ist. Zum einen belehrt er die Sozialdemokratische Fraktion, weil diese eine ganz klare und eindeutige Entscheidung der Konferenz der Präsidenten in Frage stellt. Und nun tut er genau dasselbe. Wir haben diskutiert, wir waren uns einig, nur die EVP-Fraktion und die Liberalen nicht. Und ich hatte noch darauf hingewiesen, die anderen Präsidentenkollegen werden sich noch daran erinnern, daß es nicht darum geht, ob man für oder gegen die Tobin-Steuer ist, sondern darum, ob wir bereit sind, uns anzuhören, was die Kommission und der Rat davon halten. Das ist nicht zuviel verlangt. Ich wiederhole also den Vorschlag, diese mündliche Anfrage an die Kommission und den Rat aufrechtzuerhalten, um ein für alle Mal die Meinung dieser beiden Institutionen zu diesem relativ bescheidenen Vorschlag zu erfahren, der für die Öffentlichkeit ein wichtiges Signal wäre, insbesondere nach der Aufregung im Gefolge des Scheiterns der Konferenz von Seattle.
+
+Wir stimmen jetzt über den Antrag der PPE/DE-Fraktion ab, die mündliche Anfrage über die Kapitalsteuer von der Tagesordnung abzusetzen.
+(Das Parlament lehnt den Antrag mit 164 Ja-Stimmen, 166 Nein-Stimmen und 7 Enthaltungen ab.)
+
+Frau Präsidentin, ich möchte Herrn Poettering für das Rühren der Werbetrommel zugunsten dieser Aussprache danken. Vielen Dank.
+
+Frau Präsidentin! Ist meine Stimme mitgezählt worden? Ich konnte sie nämlich nicht elektronisch abgeben, weil ich die Karte nicht habe. Ich habe "dafür " gestimmt.
+
+In der Tat, wenn man die beiden Mitglieder, die sich gemeldet haben hinzuzählt, dann ergibt sich als Ergebnis ...
+
+Frau Präsidentin! Die Präsidentschaft hat das Ergebnis der Abstimmung verkündet. Änderungen sind nicht möglich.
+
+Liebe Kolleginnen und Kollegen, ich muß Sie nochmals daran erinnern, montags Ihre Stimmkarte mitzubringen. Wir haben da offensichtlich ein Problem, und ich muß jetzt eine Entscheidung treffen.
+Auch ich habe meine Stimmkarte vergessen, und ich hätte dagegen gestimmt. Ich gehe somit davon aus, daß die mündliche Anfrage auf der Tagesordnung bleibt.
+Das war das letzte Mal, daß wir vergessene Karten berücksichtigen. Damit das ein für alle Mal klar ist!
+(Beifall)
+Richtig, damit bleibt die mündliche Anfrage auf der Tagesordnung, und richtig, die Präsidentin hat das Recht abzustimmen, wie sie auch das Recht hat, ihre Stimmkarte zu vergessen.
+Wir kommen nun zu den weiteren Änderungen der Tagesordnung.
+
+Frau Präsidentin, bei der früheren Abstimmung zur Frage des Strategieplans der Kommission - keine Angst, ich werde mich an Ihre Entscheidung in dieser Sache halten - hatte ich darum gebeten, vor der Abstimmung im Namen meiner Fraktion sprechen zu dürfen. Dazu kam es nicht. Ich würde es begrüßen, wenn ich zum Abschluß dieses Geschäftspunktes die Möglichkeit hätte, im Namen meiner Fraktion eine Erklärung zur Abstimmung abzugeben. Das ist eine wichtige Angelegenheit. Vielleicht wäre es sinnvoll festzuhalten, wie das, was wir eben getan haben, von den einzelnen vor dem Hintergrund ihrer eigenen politischen Analyse aufgenommen wird.
+
+Frau Präsidentin! Ich will die Debatte nicht wieder aufnehmen, aber ich hatte mich auch gemeldet, um zu dem Antrag von Herrn Barón Crespo Stellung zu nehmen. Sie haben mich auch nicht aufgerufen. Ich bedauere das, aber die Abstimmung ist durchgeführt worden, die Entscheidung ist gefallen, also lassen wir die Dinge.
+
+Das tut mir leid, Herr Hänsch und Herr Cox. Ich hatte nicht gesehen, daß Sie ums Wort gebeten hatten. Doch die Positionen sind deutlich geworden und werden ins Protokoll aufgenommen. Wenn wir morgen das Protokoll der Sitzung von heute verabschieden, können die Kolleginnen und Kollegen, die der Auffassung sind, daß die Positionen nicht ausreichend klar geworden sind, Änderungen beantragen. Ich halte dieses Vorgehen für angemessen. Natürlich werden im Protokoll der Sitzung von morgen sämtliche zusätzlichen Erläuterungen berücksichtigt. Ich halte das für besser als jetzt lange Stimmerklärungen abzugeben. Herr Cox, Herr Hänsch, sind Sie damit einverstanden?
+
+Frau Präsidentin, wenn aus der Abstimmung einwandfrei hervorgeht, wie meine Fraktion abgestimmt hat, dann werde und kann ich nichts dagegen sagen. Wenn Sie festlegen, daß ich keine Erklärung zur Abstimmung abgeben kann, akzeptiere ich das, wenngleich unter Vorbehalt.
+
+Beim Abfassen des Protokolls werden wir mit großer Sorgfalt vorgehen. Das tun wir im übrigen immer. Wenn Positionen nicht richtig wiedergegeben werden, können wir das Protokoll gegebenenfalls ändern.
+(Das Parlament genehmigt den geänderten Arbeitsplan.)
diff --git a/tika-core/src/test/resources/org/apache/tika/language/el.test b/tika-core/src/test/resources/org/apache/tika/language/el.test
new file mode 100644
index 0000000000..5fa13e7d1f
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/el.test
@@ -0,0 +1,109 @@
+Επαvάληψη της συvσδoυ
+Κηρύσσω την επανάληψη της συνόδου του Ευρωπαϊκού Κοινοβουλίου η οποία είχε διακοπεί την Παρασκευή 17 Δεκεμβρίου και σας απευθύνω ξανά τις θερμές ευχές μου, ελπίζοντας να περάσατε καλά στις διακοπές.
+Όπως μπορέσατε να διαπιστώσετε, ο περίφημος "ιός του έτους 2000" δεν εμφανίσθηκε. Αντιθέτως, οι πολίτες ορισμένων χωρών μας υπήρξαν θύματα φυσικών καταστροφών, οι οποίες ήταν όντως φοβερές. Επιθυμείτε μία συζήτηση επί του θέματος τις επόμενες ημέρες, κατά τη διάρκεια της τρέχουσας περιόδου συνόδου. Επί του παρόντος θα ήθελα, όπως μου ζήτησαν ορισμένοι συνάδελφοι, να τηρήσουμε ενός λεπτού σιγή για όλα τα θύματα, κυρίως για τα θύματα των καταιγίδων, στις διάφορες πληγείσες χώρες της Ευρωπαϊκής Ένωσης. Σας καλώ να σηκωθείτε για αυτή την ενός λεπτού σιγή.
+(Το Σώμα, όρθιο, τηρεί ενός λεπτού σιγή)
+
+Kυρία Πρόεδρε, επί ενός θέματος διαδικασίας. Θα έχετε ενημερωθεί από τον τύπο και την τηλεόραση ότι συνέβησαν ορισμένες εκρήξεις βομβών και φόνοι στη Σρι Λάνκα. Ένας από τους ανθρώπους που δολοφονήθηκαν πολύ πρόσφατα στη Σρι Λάνκα ήταν ο κ. Kumar Ponnambalam, ο οποίος είχε επισκεφθεί το Ευρωπαϊκό Κοινοβούλιο μόλις πριν λίγους μήνες. Θα το θεωρούσατε σωστό, κυρία Πρόεδρε, να γράψετε μία επιστολή στην Πρόεδρο της Σρι Λάνκα, όπου θα εκφράζετε τη λύπη του Κοινοβουλίου για τον θάνατό του και τους άλλους βίαιους θανάτους στη Σρι Λάνκα και θα την παρακινείτε να πράξει οτιδήποτε είναι δυνατό, από την πλευρά της, για να αναζητήσει μια ειρηνική διευθέτηση σε μια πολύ δύσκολη κατάσταση;
+
+Ναι, κύριε Evans, θεωρώ ότι μία πρωτοβουλία με την έννοια που μόλις προτείνατε θα ήταν απολύτως ενδεδειγμένη. Εάν το Σώμα συμφωνεί θα πράξω όπως πρότεινε ο κ. Evans.
+
+Κυρία Πρόεδρε, επί ενός θέματος διαδικασίας. Θα ήθελα τη συμβουλή σας για το άρθρο 143 περί του μη παραδεκτού. Το ερώτημά μου αφορά κάτι που θα τεθεί προς συζήτηση την Πέμπτη, το οποίο θα θέσω τότε ξανά.
+Η έκθεση Cunha, σχετικά με τα πολυετή προγράμματα προσανατολισμού, θα τεθεί ενώπιον του Κοινοβουλίου την Πέμπτη και περιέχει μία πρόταση στην παράγραφο 6, ότι πρέπει να θεσπισθούν κυρώσεις με τη μορφή ποσοστώσεων για τις χώρες που αποτυγχάνουν να επιτύχουν ετησίως τους στόχους μείωσης των στόλων τους. Αναφέρει ότι αυτό πρέπει να πραγματοποιηθεί παρά την αρχή της σχετικής σταθερότητας. Θεωρώ ότι η αρχή της σχετικής σταθερότητας συνιστά θεμελιώδη νομική αρχή της κοινής αλιευτικής πολιτικής και μια πρόταση ανατροπής της θα ήταν νομικά απαράδεκτη. Θέλω να μάθω εάν μπορεί κανείς να θέσει μία ένσταση τέτοιου είδους σε ένα έγγραφο που είναι απλώς έκθεση, και όχι πρόταση νομοθετικού περιεχομένου, και εάν έχω την αρμοδιότητα να το πράξω αυτό την Πέμπτη.
+
+Ακριβώς εκείνη τη στιγμή θα μπορέσετε πράγματι, εάν το επιθυμείτε, να θέσετε αυτό το ερώτημα, δηλαδή την Πέμπτη πριν την έναρξη της παρουσίασης της έκθεσης.
+
+Κυρία Πρόεδρε, ταυτόχρονα με την πρώτη περίοδο συνόδου του Ευρωπαϊκού Κοινοβουλίου αυτού του έτους, στις Ηνωμένες Πολιτείες και συγκεκριμένα στο Τέξας, ορίστηκε η ημερομηνία, για την επόμενη Πέμπτη δυστυχώς, της εκτέλεσης ενός θανατοποινίτη, ενός νέου 34 ετών με το όνομα Hicks.
+Κατόπιν πρωτοβουλίας ενός γάλλου βουλευτή, του κ. Zimeray, έχει ήδη κατατεθεί αίτηση πολλών συνυπογραφόντων, συμπεριλαμβανομένου του ομιλούντος, σας ζητώ ωστόσο, στο πνεύμα της κατεύθυνσης που χάραξαν το Ευρωπαϊκό Κοινοβούλιο και ολόκληρη η Ευρωπαϊκή Κοινότητα, να παρέμβετε, με το κύρος του αξιώματός σας και του θεσμικού οργάνου που εκπροσωπείτε, προς τον Πρόεδρο και τον Κυβερνήτη του Τέξας Bush, που έχει την εξουσία να αναστείλει τη θανατική καταδίκη και να απονείμει χάρη στον κατάδικο.
+Η στάση αυτή είναι συνεπής με τις αρχές που πάντα προσπίζαμε.
+
+Ευχαριστώ κύριε Segni, θα το πράξω πολύ ευχαρίστως. Πράγματι, ευθυγραμμίζεται απολύτως με τις θέσεις που ανέκαθεν υιοθετούσε το Κοινοβούλιό μας.
+
+Κυρία Πρόεδρε, θα ήθελα να επιστήσω την προσοχή σας σε μία περίπτωση με την οποία έχει ασχοληθεί επανειλημμένα αυτό το Κοινοβούλιο. Εννοώ την περίπτωση του Alexander Nikitin. Όλοι εδώ χαιρόμαστε που τον αθώωσε το δικαστήριο, καθιστώντας σαφές ότι η πρόσβαση σε πληροφορίες που αφορούν το περιβάλλον αποτελεί συνταγματικό δικαίωμα και στη Ρωσία. Τώρα όμως μαθαίνουμε πως ο Alexander Nikitin πρόκειται να κατηγορηθεί εκ νέου, αφού θα ασκήσει έφεση η εισαγγελία. Γνωρίζουμε, και το έχουμε διαπιστώσει σε πάρα πολλά, όντως, ψηφίσματα - ειδικά κατά τη διάρκεια της τελευταίας περιόδου συνόδου του προηγούμενου έτους - ότι αυτό δεν αποτελεί νομική μόνον υπόθεση αλλά και ότι είναι λάθος να κατηγορείται ο Alexander Nikitin για εγκληματική δράση και προδοσία, επειδή εμείς επωφελούμεθα ως θιγόμενοι από τα πορίσματά του. Τα εν λόγω πορίσματα συνιστούν τη βάση των ευρωπαϊκών προγραμμάτων για την προστασία της Θάλασσας του Μπάρεντ, και για τον λόγο αυτό σας παρακαλώ να μελετήσετε ένα σχέδιο επιστολής που θα σας περιγράψει τα σημαντικότερα γεγονότα και να καταστήσετε σαφή τη θέση αυτή στη Ρωσία στο πνεύμα των αποφάσεων του Κοινοβουλίου
+
+Βεβαίως, κυρία Schroedter, θα εξετάσω πολύ ευχαρίστως τα σχετικά με το συγκεκριμένο ζήτημα γεγονότα μόλις λάβω την επιστολή σας.
+
+Κυρία Πρόεδρε, θα ήθελα καταρχάς να σας συγχαρώ που κρατήσατε το λόγο σας, γιατί διαπιστώνω όντως σε αυτήν την πρώτη περίοδο συνόδου του καινούργιου χρόνου ότι ο αριθμός των τηλεοπτικών σταθμών που πιάνουμε στο Σώμα αυξήθηκε δραματικά. Όμως, κυρία Πρόεδρε, δεν έγινε αυτό που ζήτησα. Γιατί τώρα πιάνουμε δύο φινλανδικούς σταθμούς και έναν πορτογαλικό αλλά κανέναν ολλανδικό, ενώ αυτό σας είχα ζητήσει, επειδή και εμείς οι Ολλανδοί θέλουμε να παρακολουθούμε τα νέα κάθε μήνα κάθε φορά που μας στέλνουν εξορία εδώ. Θα ήθελα λοιπόν να σας παρακαλέσω για άλλη μία φορά να φροντίσετε, ώστε να μπορούμε να πιάνουμε και έναν ολλανδικό σταθμό.
+
+Κυρία Plooij-van Gorsel, μπορώ να σας πω ότι αυτό το ζήτημα βρίσκεται στην ημερήσια διάταξη της συνεδρίασης των Κοσμητόρων που θα διεξαχθεί την Τετάρτη. Ελπίζω ότι θα εξετασθεί με θετικό πνεύμα.
+
+Κυρία Πρόεδρε, μπορείτε να μου πείτε γιατί αυτό το Κοινοβούλιο δεν εφαρμόζει τη νομοθεσία περί υγιεινής και ασφάλειας την οποία στην πραγματικότητα ψηφίζει; Γιατί δεν έχει πραγματοποιηθεί έλεγχος της ποιότητας του αέρα στο συγκεκριμένο κτίριο από τότε που εκλεγήκαμε; Γιατί δεν έχει πραγματοποιηθεί καμία συνέλευση της Επιτροπής Υγείας και Ασφάλειας από το 1998; Γιατί δεν έχει πραγματοποιηθεί καμία άσκηση πυρκαγιάς, ούτε στα κτίρια του Κοινοβουλίου στις Βρυξέλλες ούτε στα κτίρια του Κοινοβουλίου στο Στρασβούργο; Γιατί δεν υπάρχουν οδηγίες για περίπτωση πυρκαγιάς; Γιατί οι σκάλες δεν βελτιώθηκαν από τότε που έπαθα το ατύχημά μου; Γιατί δεν επιβάλλεται η τήρηση των χώρων μη καπνιστών; Φαίνεται εντελώς επαίσχυντο να ψηφίζουμε νομοθεσία και να μην την εφαρμόζουμε εμείς οι ίδιοι.
+(Χειροκροτήματα)
+
+Κυρία Lynne, έχετε απόλυτο δίκιο και θα εξακριβώσω εάν όντως όλα αυτά δεν έχουν γίνει. Θα θέσω επίσης το πρόβλημα στο Σώμα των Κοσμητόρων και είμαι βέβαιη ότι οι Κοσμήτορές μας θα επιδείξουν ζήλο και θα ενεργήσουν έτσι, ώστε να σεβόμαστε τους κανονισμούς που στην πραγματικότητα ψηφίζουμε εμείς.
+
+Κυρία Πρόεδρε, η κ. Dνez Gonzαlez και εγώ ο ίδιος είχαμε υποβάλει κάποιες ερωτήσεις σχετικά με συγκεκριμένες απόψεις της Αντιπροέδρου κ. de Palacio, οι οποίες παρουσιάστηκαν σε ισπανική εφημερίδα. Οι αρμόδιες υπηρεσίες δεν τις έχουν συμπεριλάβει στην ημερήσια διάταξη, επειδή θεώρησαν ότι έχουν ήδη δοθεί απαντήσεις σε προηγούμενη σύνοδο.
+Σας παρακαλώ να επανεξεταστεί η απόφαση αυτή, γιατί αυτό δεν αληθεύει. Οι ερωτήσεις στις οποίες δόθηκε απάντηση παλαιότερα αναφέρονταν στην παρέμβαση της κ. Palacio σε συγκεκριμένη υπόθεση και όχι στις εν λόγω δηλώσεις, οι οποίες δημοσιεύτηκαν στην εφημερίδα ABC στις 18 του περασμένου Νοεμβρίου.
+
+Αγαπητέ συνάδελφε, θα τα εξακριβώσουμε όλα αυτά. Σας ομολογώ ότι, επί του παρόντος, τα πράγματα μου φαίνονται κάπως συγκεχυμένα. Συνεπώς, θα επανεξετάσουμε το θέμα πολύ σοβαρά, ούτως ώστε όλα να διευθετηθούν πλήρως.
+
+Κυρία Πρόεδρε, θα ήθελα να μάθω εάν θα υπάρξει ένα σαφές μήνυμα από το Κοινοβούλιο αυτή την εβδομάδα για τη δυσαρέσκειά μας, αναφορικά με τη σημερινή απόφαση να μην ανανεωθεί το εμπάργκο όπλων για την Ινδονησία, δεδομένου ότι η συντριπτική πλειοψηφία αυτού του Κοινοβουλίου είχε επιδοκιμάσει το εμπάργκο όπλων για την Ινδονησία στο παρελθόν. Η σημερινή απόφαση για τη μη ανανέωση του εμπάργκο είναι εξαιρετικά επικίνδυνη, λαμβανομένης υπόψη της κατάστασης εκεί. Το Κοινοβούλιο λοιπόν οφείλει να στείλει ένα μήνυμα, εφόσον αυτή είναι η επιθυμία της συντριπτικής πλειοψηφίας. Είναι ανευθυνότητα εκ μέρους των κρατών μελών της ΕΕ η άρνηση ανανέωσης του εμπάργκο. Όπως λέγεται, η κατάσταση εκεί είναι λίαν ασταθής. Στην πραγματικότητα, υπάρχει ο κίνδυνος στρατιωτικού πραξικοπήματος στο μέλλον. Δεν γνωρίζουμε τι θα συμβεί. Γιατί λοιπόν πρέπει να αποκομίσουν κέρδος οι παραγωγοί όπλων της ΕΕ εις βάρος αθώων ανθρώπων;
+(Χειροκροτήματα)
+
+Εν πάση περιπτώσει, αυτό το ζήτημα δεν υπάρχει επί του παρόντος μεταξύ των αιτήσεων κατεπείγοντος για την ερχόμενη Πέμπτη.
+
+Διάταξη τωv εργασιώv
+Η ημερήσια διάταξη προβλέπει την εξέταση του τελικού σχεδίου της ημερήσιας διάταξης έτσι όπως καταρτίστηκε από τη Διάσκεψη των Προέδρων, την Πέμπτη 13 Ιανουαρίου, συμφώνως προς το άρθρο 110 του Κανονισμού. Σε ό,τι αφορά τη Δευτέρα και την Τρίτη δεν έχουν υποβληθεί τροποποιήσεις.
+Τετάρτη:
+Η Ομάδα του Κόμματος των Ευρωπαίων Σοσιαλιστών ζητά να συμπεριληφθεί μία δήλωση της Επιτροπής για τους στρατηγικούς στόχους της την επόμενη πενταετία, καθώς και για τη διοικητική μεταρρύθμιση της Επιτροπής.
+Θα ήθελα ο κ. Barσn Crespo, συντάκτης της αιτήσεως, να παρέμβει για να την αιτιολογήσει, εάν βεβαίως το επιθυμεί. Στη συνέχεια θα πράξουμε όπως συνήθως: θα ακούσουμε έναν αγορητή υπέρ και έναν αγορητή κατά.
+
+Κυρία Πρόεδρε, η παρουσίαση του πολιτικού προγράμματος της Επιτροπής Prodi για ολόκληρη την κοινοβουλευτική περίοδο υπήρξε αρχικά πρόταση της Ομάδας του Κόμματος των Ευρωπαίων Σοσιαλιστών, η οποία κατάφερε να αποσπάσει την ομοφωνία της Διάσκεψης των Προέδρων τον Σεπτέμβριο, καθώς και τη ρητή έγκριση του Προέδρου κ. Prodi, ο οποίος επανέλαβε τη δέσμευσή του στον λόγο που εκφώνησε κατά την τελετή ανάληψης των καθηκόντων του.
+Αυτή η δέσμευση είναι σημαντική, στο βαθμό που η Επιτροπή είναι ένας οργανισμός που κατέχει το μονοπώλιο στη λήψη πρωτοβουλιών σύμφωνα με τις Συνθήκες και, επομένως, διαμορφώνει κατά βάση τη φύση της πολιτικής και νομοθετικής δραστηριότητας αυτού του Κοινοβουλίου για τα επόμενα πέντε έτη. Υπενθυμίζω επίσης, κυρία Πρόεδρε, ότι αυτό το Κοινοβούλιο έδωσε σε δύο περιπτώσεις, στη διάρκεια της προηγούμενης κοινοβουλευτικής περιόδου, ψήφο εμπιστοσύνης στον Πρόεδρο Prodi. Στην τρέχουσα κοινοβουλευτική περίοδο, του έδωσε εκ νέου ψήφο εμπιστοσύνης τον Ιούλιο και κατόπιν, όταν η νέα Επιτροπή είχε αναλάβει τα καθήκοντά της, έδωσε ξανά ψήφο εμπιστοσύνης σε όλη την Επιτροπή τον Σεπτέμβριο. Επομένως, υπήρχε ήδη αρκετός χρόνος ώστε η Επιτροπή να εκπονήσει το πρόγραμμά της και εμείς να μπορέσουμε να το μάθουμε και να μπορέσουμε να το εξηγήσουμε στους πολίτες. Σε αυτό το πλαίσιο, υπενθυμίζω το ψήφισμα της 15ης Σεπτεμβρίου, στο οποίο προτεινόταν η υποβολή της πρότασης στο συντομότερο δυνατό χρονικό διάστημα.
+Τα γεγονότα που συνέβησαν την περασμένη εβδομάδα - τα οποία προκλήθηκαν εκτός του πλαισίου της Διάσκεψης των Προέδρων, ενώ η τελευταία χρησιμοποιήθηκε μόνο για την επιβεβαίωση και την επικύρωση αποφάσεων που είχαν ληφθεί εκτός αυτής - θέτουν ένα δίλημμα: είτε η Επιτροπή δεν είναι σε θέση να παρουσιάσει το πρόγραμμα αυτό· (στην περίπτωση αυτή, θα ήταν καλό να το δηλώσει. Σύμφωνα με τα λεγόμενα του Προέδρου της, είναι σε θέση να το παρουσιάσει. Δεδομένου ότι η Επιτροπή εκπροσωπείται από την Αντιπρόεδρο κ. de Palacio, πιστεύω ότι, πριν από την ψηφοφορία θα ήταν πρέπον να γνωρίζουμε την κατάσταση της Επιτροπής ως προς τη δυνατότητά της να παρουσιάσει το πρόγραμμα, όπως είχε συμφωνηθεί)· είτε το Κοινοβούλιο δεν είναι σε θέση να εξετάσει το πρόγραμμα αυτό, όπως φαίνεται ότι ισχυρίζονται μερικοί. Κατά τη γνώμη μου, αυτό το δεύτερο ενδεχόμενο θα σήμαινε ότι παραιτούμεθα από τις αρμοδιότητές μας ως Κοινοβούλιο και ότι, επιπλέον, εισαγάγουμε μια πρωτότυπη άποψη, μια άγνωστη μέθοδο που συνίσταται στη γραπτή πληροφόρηση των πολιτικών ομάδων σχετικά με τις προγραμματικές δηλώσεις της Επιτροπής μία εβδομάδα πριν - και όχι την προηγούμενη μέρα, όπως είχε συμφωνηθεί - λαμβάνοντας υπόψη ότι το νομοθετικό πρόγραμμα θα συζητηθεί τον Φεβρουάριο, κατά τέτοιον τρόπο ώστε θα μπορούσαμε να παρακάμψουμε τη συζήτηση, επειδή την επόμενη μέρα θα είχε γνωστοποιηθεί σε όλους τους πολίτες από τον Τύπο και το Internet και το Κοινοβούλιο δεν θα είχε πια λόγο να ασχοληθεί με το ζήτημα.
+Καθώς η Ομάδα μου πιστεύει ότι σκοπός της σύστασης ενός Κοινοβουλίου είναι να ακούει, να διαβουλεύεται και να στοχάζεται, νομίζουμε ότι δεν υπάρχει κανένας λόγος που να δικαιολογεί αυτή την αναβολή και πιστεύουμε ότι αν η Επιτροπή είναι σε θέση να το κάνει, η στιγμή είναι κατάλληλη, για να μπορέσουμε να επαναφέρουμε την αρχική συμφωνία μεταξύ του Κοινοβουλίου και της Επιτροπής και να συνεχίσουμε το έργο μας με υπευθυνότητα απέναντι στους συμπολίτες μας. Επομένως, η πρόταση που υποβάλει η Ομάδα του Κόμματος των Ευρωπαίων Σοσιαλιστών και που εσείς αναφέρατε, είναι να παρουσιαστεί την Τετάρτη το πρόγραμμα της κοινοβουλευτικής περιόδου της Επιτροπής του κ. Prodi, συμπεριλαμβανομένου στο πρόγραμμα αυτό του σχεδίου της διοικητικής μεταρρύθμισης διότι, διαφορετικά, είναι πιθανό να έρθουμε αντιμέτωποι με μια παράδοξη κατάσταση: με τη δικαιολογία ότι δεν υπάρχει έγγραφο, από τη μια πλευρά ο Πρόεδρος της Επιτροπής στερείται του δικαιώματος να μιλήσει ενώπιον του Κοινοβουλίου και από την άλλη απορρίπτεται η διεξαγωγή μιας συζήτησης σχετικά με τη μεταρρύθμιση, χωρίς να γνωρίζει από πριν το Κοινοβούλιο αυτό τα κείμενα στα οποία θα βασίζεται αυτή η συζήτηση. Επομένως, σας παρακαλώ, κυρία Πρόεδρε, να ζητήσετε από την Επιτροπή να εκφράσει την άποψή της αυτή τη στιγμή και στη συνέχεια να προχωρήσουμε στην ψηφοφορία.
+(Χειροκροτήματα από την Ομάδα του Κόμματος των Ευρωπαίων Σοσιαλιστών)
+
+Κυρία Πρόεδρε, αγαπητοί συνάδελφοι, ομολογουμένως εκπλήσσομαι κάπως με τη συμπεριφορά του συναδέλφου Barσn Crespo, ο οποίος ζητεί τώρα να τεθεί στην ημερήσια διάταξη της Τετάρτης το εν λόγω θέμα της ημερήσιας διάταξης.
+Κύριε συνάδελφε Barσn Crespo, δεν μπορέσατε να παρευρεθείτε στη Διάσκεψη των Προέδρων την περασμένη Πέμπτη. Δεν το κατακρίνω αυτό, διότι συμβαίνει συχνά να στέλνουμε εκπροσώπους μας. Εκεί σας εκπροσώπησε ο συνάδελφος Hδnsch. Στη Διάσκεψη των Προέδρων πραγματοποιήσαμε μια διεξοδική συζήτηση. Η Ομάδα σας ήταν η μόνη που υποστήριξε αυτό που αναφέρετε τώρα εσείς. Στη συνέχεια διενεργήσαμε ψηφοφορία. Κάθε πρόεδρος διαθέτει, ως γνωστόν, τόσες ψήφους, όσα είναι και τα μέλη της Ομάδας. Διενεργήθηκε ψηφοφορία επ' αυτού, το αποτέλεσμα της οποίας είχε ως εξής απ' ό,τι θυμάμαι: 422 ψήφοι εναντίον 180 ψήφων με μερικές ολιγάριθμες αποχές. Δηλαδή, όλες οι Ομάδες, με την εξαίρεση των μη εγγεγραμμένων - οι οποίοι όμως δεν αποτελούν βέβαια Ομάδα - συμφώνησαν μεταξύ τους, και μόνον η δική σας Ομάδα ήταν της γνώμης πως πρέπει να προχωρήσουμε με τον τρόπο που εσείς προτείνατε εδώ. Όλοι οι άλλοι είχαν διαφορετική γνώμη. Αυτή ήταν η απόφαση.
+Τώρα θα ήθελα να πω κάτι επί του ιδίου του θέματος. Εμπιστευόμαστε την Επιτροπή, τον Romano Prodi, και η συντριπτική πλειοψηφία της Ομάδας μας εξέφρασε την εμπιστοσύνη της στον Romano Prodi και την Επιτροπή έπειτα από μια δύσκολη διαδικασία, όπως γνωρίζουν όλοι. Είμαστε όμως και της γνώμης πως πρέπει να διεξαγάγουμε μια συζήτηση για την εν λόγω στρατηγική της Επιτροπής στο πλαίσιο μιας κανονικής διαδικασίας, όχι μόνον βάσει μιας προφορικής δήλωσης εδώ στο Ευρωπαϊκό Κοινοβούλιο, αλλά και βάσει ενός εγγράφου που θα έχει ψηφισθεί στην Επιτροπή και που θα περιγράφει το πενταετές αυτό πρόγραμμα. Παρόμοιο έγγραφο δεν υφίσταται!
+(Χειροκροτήματα)
+Η Επιτροπή θα καταθέσει το πρόγραμμα για το έτος 2000 τον Φεβρουάριο. Εμείς είπαμε, εντάξει, εάν η Επιτροπή δεν επιθυμεί να εκπονήσει το πρόγραμμα 2000 ήδη εντός του Ιανουαρίου, τότε θα κάνουμε τη συζήτηση εντός του Φεβρουαρίου. Το εγκρίναμε αυτό, διότι βασικά δεν επιθυμούμε διένεξη με την Επιτροπή, αλλά είμαστε της γνώμης πως η Επιτροπή και το Κοινοβούλιο πρέπει να συμπορεύονται όποτε αυτό είναι εφικτό. Όμως εμείς ως Κοινοβούλιο είμαστε και ο ελεγκτής της Επιτροπής. Και δεν είναι απαραίτητο η γνώμη μας να ταυτίζεται με οτιδήποτε προέρχεται από την Επιτροπή.
+Θα ήθελα να είμαστε σε θέση να προετοιμαστούμε καλά στις Ομάδες για μια συζήτηση σχετικά με το πενταετές πρόγραμμα. Δεν μπορεί κανείς να προετοιμαστεί, όταν ακούει εδώ μια δήλωση χωρίς να γνωρίζει καθόλου ποιο είναι το περιεχόμενο μιας τέτοιας δήλωσης. Για τον λόγο αυτό κάνουμε τη σύσταση - και έχω την εντύπωση πως και η Επιτροπή είναι ανοιχτή προς αυτή τη σκέψη - να διεξάγουμε εντός του Φεβρουαρίου τη συζήτηση επί του μακροπρόθεσμου προγράμματος της Επιτροπής έως το έτος 2005 - ελπίζω πως και η Επιτροπή θα συμφωνήσει μέχρι τότε όσον αφορά κάποιο πρόγραμμα που θα μας προτείνει - και να διεξαγάγουμε ταυτόχρονα τον Φεβρουάριο και τη συζήτηση σχετικά με τον προγραμματισμό του νομοθετικού έργου της Επιτροπής για το έτος 2000. Επομένως, υπάρχει και μια λογική αντικειμενική συνοχή που μας συνιστά να διεξαγάγουμε από κοινού τη συζήτηση και για τα δύο προγράμματα. Για τον λόγο αυτό, η Ομάδα μου απορρίπτει κατηγορηματικά την πρόταση της Ομάδας του Κόμματος των Ευρωπαίων Σοσιαλιστών!
+(Χειροκροτήματα από την Ομάδα του Ευρωπαϊκού Λαϊκού Κόμματος (Χριστιανοδημοκράτες) και των Ευρωπαίων Δημοκρατών)
+
+Κυρία Πρόεδρε, θέλω να καταστήσω απολύτως σαφές ότι, καταρχάς, η Επιτροπή σέβεται στο μέγιστο βαθμό τις αποφάσεις του Κοινοβουλίου και, μεταξύ αυτών, την απόφαση να καθορίζει την ημερήσια διάταξή του. Επομένως, εμείς σεβόμαστε την απόφαση που μπορεί να λάβει το Κοινοβούλιο ως προς αυτό.
+Όμως, θέλω επίσης να καταστήσω απολύτως σαφές ότι, ο Πρόεδρος Prodi δεσμεύτηκε έναντι του Κοινοβουλίου να ενσωματώσει μια νέα συζήτηση, όπως υπενθύμισε ο κ. Barσn, η οποία θα προστεθεί στην ετήσια συζήτηση σχετικά με το νομοθετικό πρόγραμμα της Επιτροπής, σχετικά με τις σημαντικές γραμμές δράσης για την επόμενη πενταετία, δηλαδή, για την τρέχουσα κοινοβουλευτική περίοδο.
+Θέλω να αναφέρω, κυρία Πρόεδρε, ότι αυτή η συζήτηση δεν ταυτιζόταν, στη συμφωνία η οποία επιτεύχθηκε το Σεπτέμβριο, με την ετήσια παρουσίαση του νομοθετικού προγράμματος της Επιτροπής. Και θέλω να πω, κυρία Πρόεδρε, ότι, εκ μέρους της Επιτροπής, είμαστε έτοιμοι και διατεθειμένοι να πραγματοποιήσουμε τη συζήτηση αυτή την κατάλληλη στιγμή, ότι ήμασταν έτοιμοι να αναπτύξουμε τη συζήτηση αυτήν την εβδομάδα, όπως είχε συμφωνηθεί αρχικά, ξεκινώντας από τη βάση ότι θα παρουσιαζόταν την προηγούμενη μέρα σε έναν λόγο προς τις κοινοβουλευτικές ομάδες.
+Επομένως, κυρία Πρόεδρε, θέλω να επαναλάβω ότι, από τη δική μας πλευρά, έχουμε συζητήσει το πρόγραμμα δράσης για τα επόμενα πέντε χρόνια και είμαστε έτοιμοι ώστε, όταν το αποφασίσει το Κοινοβούλιο, - ακόμα και αυτήν την εβδομάδα, αν αυτή είναι η απόφαση - να παρουσιάσουμε το πρόγραμμα για τα πέντε επόμενα έτη και, τον επόμενο μήνα, το πρόγραμμα για το έτος 2000, αυτό δηλαδή ακριβώς που είχε συμφωνηθεί.
+
+Προτείνω να ψηφίσουμε επί της αιτήσεως της Ομάδας του Κόμματος των Ευρωπαίων Σοσιαλιστών για την επανεγγραφή της δήλωσης της Επιτροπής σχετικά με τους στρατηγικούς στόχους της.
+(Το Σώμα απορρίπτει την αίτηση) Πρόεδρος. Πάντοτε σε ό,τι αφορά την ημέρα της Τετάρτης, έχω μία άλλη πρόταση που αφορά την προφορική ερώτηση σχετικά με τον φόρο επί του κεφαλαίου. Η Ομάδα του Ευρωπαϊκού Λαϊκού Κόμματος (Χριστιανοδημοκράτες) και των Ευρωπαίων Δημοκρατών ζητά να αποσυρθεί αυτό το σημείο από την ημερήσια διάταξη.
+Υπάρχει κάποιος συνάδελφος για να λάβει τον λόγο εξ ονόματος της συγκεκριμένης Ομάδας και να αιτιολογήσει αυτή την αίτηση;
+
+Κυρία Πρόεδρε, επειδή ακούω κάποια γέλια από την πλευρά των Σοσιαλιστών, είναι καλό να γνωρίζετε πως μου αναφέρθηκε το γεγονός ότι και στην Ομάδα του Κόμματος των Ευρωπαίων Σοσιαλιστών υπάρχουν ευρείς κύκλοι που θα επιθυμούσαν πολύ την απόσυρση από την ημερήσια διάταξη του εν λόγω θέματος, επειδή κατά την ψηφοφορία στη Διάσκεψη των Προέδρων δεν είχε κατατεθεί η ψήφος της ομάδας εργασίας των αρμόδιων συναδέλφων της Ομάδας του Κόμματος των Ευρωπαίων Σοσιαλιστών. Δεν γνωρίζω εάν είναι σωστή αυτή η πληροφορία, εμείς όμως ως Ομάδα του Ευρωπαϊκού Λαϊκού Κόμματος και των Ευρωπαίων Δημοκρατών θα είμαστε σίγουρα ευγνώμονες εάν αποσυρόταν το θέμα αυτό, επειδή το Κοινοβούλιο έχει ήδη ασχοληθεί, ως γνωστόν, πολλές φορές με το εν λόγω ζήτημα. Υπάρχουν μάλιστα και αποφάσεις κατά της επιβολής ενός παρόμοιου φόρου. Για τον λόγο αυτό, η Ομάδα μου ζητεί να αποσυρθεί το θέμα αυτό από την ημερήσια διάταξη.
+
+Σας ευχαριστώ, κύριε Poettering.
+Θα ακούσουμε τώρα τον κ. Wurtz, ο οποίος αντιτίθεται στη συγκεκριμένη αίτηση.
+
+Κυρία Πρόεδρε, θα ήθελα καταρχάς να υπογραμμίσω την έλλειψη λογικής του κ. Poettering. Αυτή τη στιγμή, μόλις έκανε μάθημα ηθικής στην Ομάδα του Κόμματος των Ευρωπαίων Σοσιαλιστών, διότι αναίρεσε μία απόφαση που έλαβε με ιδιαίτερα ξεκάθαρο τρόπο η Διάσκεψη των Προέδρων. Ωστόσο, και αυτός πράττει το ίδιο πράγμα. Συζητήσαμε και είμασταν ομόφωνοι εκτός από την Ομάδα του Ευρωπαϊκού Λαϊκού Κόμματος και την Ομάδα των Φιλελευθέρων, και είχα μάλιστα επισημάνει, θα το θυμάστε αγαπητοί συνάδελφοι, πρόεδροι των Ομάδων, ότι το ζήτημα δεν είναι εάν είστε υπέρ ή κατά του φόρου Tobin, αλλά εάν τολμάτε να ακούσετε τι σκέπτονται επί του προκειμένου η Επιτροπή και το Συμβούλιο. Δεν ζητάμε πολλά. Συνεπώς, επαναλαμβάνω την πρόταση να διατηρηθεί η εν λόγω προφορική ερώτηση προς την Επιτροπή και το Συμβούλιο, για να μάθουμε άπαξ δια παντός τη θέση των εν λόγω δύο αρχών σε σχέση με την προκειμένη πρόταση, η οποία είναι σχετικά μετριοπαθής, αλλά που θα έστελνε, ωστόσο, ένα σημαντικό μήνυμα στην κοινή γνώμη, ιδιαίτερα μετά την ταραχή που προκάλεσε η αποτυχία της Διάσκεψης του Seattle.
+
+Θα ψηφίσουμε επί της αιτήσεως της Ομάδας του Ευρωπαϊκού Λαϊκού Κόμματος (Χριστιανοδημοκράτες) και των Ευρωπαίων Δημοκρατών για την απόσυρση από την ημερήσια διάταξη της προφορικής ερώτησης αναφορικά με τον φόρο επί του κεφαλαίου.
+(Το Σώμα απορρίπτει την αίτηση με 164 ψήφους υπέρ, 166 ψήφους κατά και 7 αποχές)
+
+Κυρία Πρόεδρε, θα ήθελα να ευχαριστήσω τον κ. Poettering για τη δημοσιότητα που έδωσε μόλις τώρα σε αυτή τη συζήτηση. Ευχαριστώ.
+
+Κυρία Πρόεδρε, υπολογίστηκε η ψήφος μου, την οποία δεν μπόρεσα να δώσω με τα ηλεκτρονικά μέσα, επειδή δεν έχω την κάρτα; Η ψήφος μου ήταν "υπέρ";.
+
+Πράγματι, εάν προσθέσουμε τους δύο συναδέλφους που εξέφρασαν τη θέση τους, έχουμε ως αποτέλεσμα·
+(Διαμαρτυρίες)
+
+Κυρία Πρόεδρε, η Προεδρία ανακοίνωσε το αποτέλεσμα της ψηφοφορίας. Δεν υπάρχουν τροποποιήσεις.
+(Χειροκροτήματα)
+
+Αγαπητοί συνάδελφοι, ακόμη μία φορά, πρέπει καθένας να έχει όντως την κάρτα του τη Δευτέρα. Βλέπουμε ότι εδώ έχουμε πρόβλημα. Υπό αυτές τις συνθήκες οφείλω να λάβω μία απόφαση.
+Και εγώ επίσης έχω ξεχάσει την κάρτα μου και θα ψήφιζα κατά της πρότασης. Θεωρώ συνεπώς ότι η προφορική ερώτηση παραμένει στην ημερήσια διάταξη.
+(Χειροκροτήματα) Είναι η τελευταία φορά που λαμβάνουμε υπόψη όσους έχουν ξεχάσει τις κάρτες τους. Να είναι απολύτως σαφές και να το πείτε και στους άλλους.
+(Χειροκροτήματα)Ναι, η προφορική ερώτηση παραμένει στην ημερήσια διάταξη και ναι, η Πρόεδρος έχει δικαίωμα ψήφου, όπως επίσης έχει δικαίωμα να ξεχάσει την κάρτα της.
+Προχωρούμε στις υπόλοιπες τροποποιήσεις της ημερήσιας διάταξης.
+
+Κυρία Πρόεδρε, στην προηγούμενη ψηφοφορία - και θα εμμείνω στην απόφασή σας σε αυτό το θέμα - αναφορικά με το στρατηγικό σχέδιο της Επιτροπής, εκδήλωσα την πρόθεσή μου να μιλήσω πριν από την ψηφοφορία εξ ονόματος της Ομάδας μου. Αυτό δεν συνέβη. Θα το εκτιμούσα εάν με το πέρας αυτού του θέματος μου επιτραπεί να προβώ σε αιτιολόγηση ψήφου εκ μέρους της Ομάδας μου. Πρόκειται για σημαντικό θέμα. Θα ήταν χρήσιμο να καταγραφεί στα πρακτικά του Σώματος πώς αντιλαμβάνεται ο καθένας αυτά που μόλις πράξαμε, υπό το φως της δικής του πολιτικής ανάλυσης.
+
+Κυρία Πρόεδρε, δεν σκοπεύω να επαναλάβω τη συζήτηση, όμως και εγώ είχα δηλώσει την επιθυμία να παρέμβω επί της αιτήσεως του κ. Barσn Crespo. Δεν μου δώσατε όμως τον λόγο. Λυπάμαι γι' αυτό, όμως η ψηφοφορία διενεργήθηκε, η απόφαση λήφθηκε, επομένως θεωρώ το θέμα λήξαν.
+
+Λυπούμαι κύριε Hδnsch και κύριε Cox, δεν είδα ότι ζητούσατε τον λόγο. Υπό τις συγκεκριμένες συνθήκες, θεωρώ ότι οι θέσεις είναι αρκετά σαφείς και θα καταγραφούν στα συνοπτικά πρακτικά. Όταν αύριο εγκρίνουμε τα συνοπτικά πρακτικά της σημερινής συνεδρίασης, οι συνάδελφοι που θεωρούν ότι οι θέσεις δεν έχουν επεξηγηθεί επαρκώς, μπορούν να ζητήσουν τροποποιήσεις. Μου φαίνεται ότι είναι μια καλή λύση. Εξυπακούεται ότι στα συνοπτικά πρακτικά της αυριανής συνεδρίασης θα ληφθούν υπόψη όλες οι συμπληρωματικές επεξηγήσεις. Θεωρώ ότι είναι καλύτερη λύση από το να προβούμε τώρα σε αιτιολογήσεις ψήφου, οι οποίες θα μας αργοπορούσαν. Κύριε Cox, κύριε Hδnsch, συμφωνείτε με αυτό;
+
+Κυρία Πρόεδρε, εάν η ψηφοφορία καταγράφει ορθώς τον τρόπο με τον οποίο ψήφισε η Ομάδα μου, δεν θα εναντιωθώ σε αυτό και ούτε μπορώ να το πράξω. Εάν η απόφασή σας είναι ότι δεν μπορώ να προβώ σε αιτιολόγηση ψήφου, τη δέχομαι αλλά με επιφύλαξη.
+
+Θα δώσουμε λοιπόν μεγάλη προσοχή στη σύνταξη των συνοπτικών πρακτικών. Το πράττουμε άλλωστε πάντοτε. Εάν δεν αντικατοπτρίζουν επαρκώς τις θέσεις θα μπορέσουμε ενδεχομένως να τα διορθώσουμε.
+(Το Σώμα εγκρίνει τη διάταξη των εργασιών όπως τροποποιήθηκε)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/en.test b/tika-core/src/test/resources/org/apache/tika/language/en.test
new file mode 100644
index 0000000000..e4465e59ab
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/en.test
@@ -0,0 +1,105 @@
+Resumption of the session
+I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999, and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant festive period.
+Although, as you will have seen, the dreaded 'millennium bug' failed to materialise, still the people in a number of countries suffered a series of natural disasters that truly were dreadful. You have requested a debate on this subject in the course of the next few days, during this part-session. In the meantime, I should like to observe a minute' s silence, as a number of Members have requested, on behalf of all the victims concerned, particularly those of the terrible storms, in the various countries of the European Union. Please rise, then, for this minute' s silence.
+(The House rose and observed a minute' s silence)
+
+Madam President, on a point of order. You will be aware from the press and television that there have been a number of bomb explosions and killings in Sri Lanka. One of the people assassinated very recently in Sri Lanka was Mr Kumar Ponnambalam, who had visited the European Parliament just a few months ago. Would it be appropriate for you, Madam President, to write a letter to the Sri Lankan President expressing Parliament's regret at his and the other violent deaths in Sri Lanka and urging her to do everything she possibly can to seek a peaceful reconciliation to a very difficult situation?
+
+Yes, Mr Evans, I feel an initiative of the type you have just suggested would be entirely appropriate. If the House agrees, I shall do as Mr Evans has suggested.
+
+Madam President, on a point of order. I would like your advice about Rule 143 concerning inadmissibility. My question relates to something that will come up on Thursday and which I will then raise again.
+The Cunha report on multiannual guidance programmes comes before Parliament on Thursday and contains a proposal in paragraph 6 that a form of quota penalties should be introduced for countries which fail to meet their fleet reduction targets annually. It says that this should be done despite the principle of relative stability. I believe that the principle of relative stability is a fundamental legal principle of the common fisheries policy and a proposal to subvert it would be legally inadmissible. I want to know whether one can raise an objection of that kind to what is merely a report, not a legislative proposal, and whether that is something I can competently do on Thursday.
+
+That is precisely the time when you may, if you wish, raise this question, i.e. on Thursday prior to the start of the presentation of the report.
+
+Madam President, coinciding with this year' s first part-session of the European Parliament, a date has been set, unfortunately for next Thursday, in Texas in America, for the execution of a young 34 year-old man who has been sentenced to death. We shall call him Mr Hicks.
+At the request of a French Member, Mr Zimeray, a petition has already been presented, which many people signed, including myself. However, I would ask you, in accordance with the line which is now constantly followed by the European Parliament and by the whole of the European Community, to make representations, using the weight of your prestigious office and the institution you represent, to the President and to the Governor of Texas, Mr Bush, who has the power to order a stay of execution and to reprieve the condemned person.
+This is all in accordance with the principles that we have always upheld.
+
+Thank you, Mr Segni, I shall do so gladly. Indeed, it is quite in keeping with the positions this House has always adopted.
+
+Madam President, I should like to draw your attention to a case in which this Parliament has consistently shown an interest. It is the case of Alexander Nikitin. All of us here are pleased that the courts have acquitted him and made it clear that in Russia, too, access to environmental information is a constitutional right. Now, however, he is to go before the courts once more because the public prosecutor is appealing. We know, and we have stated as much in very many resolutions indeed, including specifically during the last plenary part-session of last year, that this is not solely a legal case and that it is wrong for Alexander Nikitin to be accused of criminal activity and treason because of our involvement as the beneficiaries of his findings. These findings form the basis of the European programmes to protect the Barents Sea, and that is why I would ask you to examine a draft letter setting out the most important facts and to make Parliament's position, as expressed in the resolutions which it has adopted, clear as far as Russia is concerned.
+
+Yes, Mrs Schroedter, I shall be pleased to look into the facts of this case when I have received your letter.
+
+Madam President, I would firstly like to compliment you on the fact that you have kept your word and that, during this first part-session of the new year, the number of television channels in our offices has indeed increased considerably. But, Madam President, my personal request has not been met. Although there are now two Finnish channels and one Portuguese one, there is still no Dutch channel, which is what I had requested because Dutch people here like to be able to follow the news too when we are sent to this place of exile every month. I would therefore once more ask you to ensure that we get a Dutch channel as well.
+
+Mrs Plooij-van Gorsel, I can tell you that this matter is on the agenda for the Quaestors' meeting on Wednesday. It will, I hope, be examined in a positive light.
+
+Madam President, can you tell me why this Parliament does not adhere to the health and safety legislation that it actually passes? Why has no air quality test been done on this particular building since we were elected? Why has there been no Health and Safety Committee meeting since 1998? Why has there been no fire drill, either in the Brussels Parliament buildings or the Strasbourg Parliament buildings? Why are there no fire instructions? Why have the staircases not been improved since my accident? Why are no-smoking areas not enforced? It seems absolutely disgraceful that we pass legislation and do not adhere to it ourselves.
+
+Mrs Lynne, you are quite right and I shall check whether this has actually not been done. I shall also refer the matter to the College of Quaestors, and I am certain that they will be keen to ensure that we comply with the regulations we ourselves vote on.
+
+Madam President, Mrs Díez González and I had tabled questions on certain opinions of the Vice-President, Mrs de Palacio, which appeared in a Spanish newspaper. The competent services have not included them in the agenda on the grounds that they had been answered in a previous part-session.
+I would ask that they reconsider, since this is not the case. The questions answered previously referred to Mrs de Palacio' s intervention, on another occasion, and not to these comments which appeared in the ABC newspaper on 18 November.
+
+Mr Berenguer Fuster, we shall check all this. I admit that, at present, the matter seems to be somewhat confused. We shall therefore look into it properly to ensure that everything is as it should be.
+
+Madam President, I should like to know if there will be a clear message going out from Parliament this week about our discontent over today's decision refusing to renew the arms embargo on Indonesia, considering that the vast majority in this Parliament have endorsed the arms embargo in Indonesia in the past? Today's decision not to renew the embargo is extremely dangerous considering the situation there. So Parliament should send a message, since that is the wish of the vast majority. It is irresponsible of EU Member States to refuse to renew the embargo. As people have said, the situation there is extremely volatile. There is, in fact, a risk of a military coup in the future. We do not know what is happening. So why should EU arms producers profit at the expense of innocent people?
+
+In any event, this question is not presently included among the requests for topical and urgent debate on Thursday.
+
+Agenda
+The next item is the verification of the final version of the draft agenda as drawn up by the Conference of Presidents at its meeting of 13 January pursuant to Rule 110 of the Rules of Procedure. No amendments have been proposed relating to Monday and Tuesday.
+Relating to Wednesday:
+The Group of the Party of European Socialists requests that a Commission statement be included on its strategic objectives for the next five years and on the administrative reform of the Commission.
+I would like Mr Barón Crespo, who made the request, to speak to propose it. That is, if he so wishes, of course. Then we shall follow the usual procedure, hearing one speaker in favour and one against.
+
+Madam President, the presentation of the Prodi Commission' s political programme for the whole legislature was initially a proposal by the Group of the Party of European Socialists which was unanimously approved by the Conference of Presidents in September and which was also explicitly accepted by President Prodi, who reiterated his commitment in his inaugural speech.
+This commitment is important because the Commission is a body with a monopoly of initiative in accordance with the Treaties and, therefore, basically dictates this Parliament' s political and legislative activity for the next five years. I would also like to point out, Madam President, that this Parliament voted to express its confidence in President Prodi during the previous legislature. It did so again during this legislature, in July, and then, in September, it voted once more to approve the whole Commission. There has therefore been enough time for the Commission to prepare its programme and for us to become familiar with it and explain it to our citizens. To this end, I would like to remind you of the resolution of 15 September, which recommended that the proposal be presented as soon as possible.
+The events of last week - which originated outside the Conference of Presidents, that Conference being used simply to corroborate and ratify decisions taken elsewhere - present us with a dilemma. Either the Commission is not ready to present this programme, in which case it should clarify it. According to its President, it is in a position to do so. Given that the Commission is represented by Vice-President de Palacio, I believe that, before voting, it would help if the Commission could let us know how ready it is to present this programme, as agreed. Alternatively, Parliament is not ready to examine this programme, as some appear to be suggesting. In my opinion, this second hypothesis would imply the failure of Parliament in its duty as a Parliament, as well as introducing an original thesis, an unknown method which consists of making political groups aware, in writing, of a speech concerning the Commission' s programme a week earlier - and not a day earlier, as had been agreed - bearing in mind that the legislative programme will be discussed in February, so we could forego the debate, since on the next day our citizens will hear about it in the press and on the Internet and Parliament will no longer have to worry about it.
+My Group believes that since a parliament is meant to listen, debate and reflect, there can be no justification whatsoever for this delay and we believe that, if the Commission is ready to do so, we still have time to re-establish the original agreement between Parliament and the Commission and proceed in a manner which fulfils our duty to our fellow citizens. Therefore, the proposal of the Group of the Party of European Socialists, and which you have mentioned, is that the Prodi Commission present its legislative programme on Wednesday, including its proposed administrative reform, because, otherwise, we could find ourselves in a paradoxical situation: on the pretext that there is no text, on the one hand, the President of the Commission would be denied his right to speak in this Parliament and, on the other hand, there would be a debate on a reform when Parliament had no prior knowledge of the texts on which it is based. Therefore, Madam President, I would ask you to request that the Commission express its opinion on this issue and that we then proceed to the vote.
+(Applause from the PSE Group)
+
+Madam President, I really am quite astonished at Mr Barón Crespo' s behaviour and the fact that he is now asking for this item to be put on Wednesday's agenda.
+Mr Barón Crespo, you were unable to attend the Conference of Presidents last Thursday. I am not criticising this; it happens from time to time that people send someone to represent them. Mr Hänsch represented you on this occasion. In the Conference of Presidents, we had an in-depth discussion. Your Group was alone in advocating what you are saying now. We then put it to a vote. As you know, each chairman has the same number of votes as his Group has Members. There was a vote on this matter. As I recall, the outcome of this vote was 422 votes to 180 with a few abstentions. This means that all the Groups with the exception of the non-attached Members - but, of course, they are not a Group - were in agreement; only your Group thought that we should proceed as you have proposed here. All of the others were of a different opinion. That was the decision.
+I should now like to comment on the issue itself. We have confidence in the Commission and in Romano Prodi and, after a difficult procedure, as everyone knows, the vast majority of our Group supported the vote of confidence in Romano Prodi and the Commission. We believe, however, that the Commission's strategic plan needs to be debated within a proper procedural framework, not only on the basis of an oral statement here in the European Parliament, but also on the basis of a document which is adopted in the Commission and which describes this programme over the five-year period. There is no such document!
+
+The Commission will present its programme for the year 2000 in February. We have said, very well, if the Commission does not wish to introduce the 2000 programme as early as January then we will do it in February. We have agreed to this. After all, we do not wish to quarrel with the Commission; if at all possible, we believe that the Commission and Parliament need to tread the same path. However, we in Parliament also have a supervisory role with regard to the Commission and we do not have to agree with everything which comes out of the Commission.
+I should like us to be able to do a reasonable amount of preparation for the debate on the five-year programme in our Groups. You cannot prepare if you hear a statement in this House and have no idea of its content. That is why we would recommend - and it is my impression that the Commission is also open to this idea - that we hold the debate on the Commission's long-term programme up to the year 2005 in February - and I hope that the Commission will agree on a programme before then which it will propose to us - and that, at the same time, in February we also hold the debate on the Commission's legislative programme for the year 2000. The fact that the subjects are connected also suggests that we should hold the debate on both programmes together. That is why my Group firmly rejects the proposal made by the Socialist Group.
+(Applause from the PPE-DE Group)
+
+Madam President, I would like to make it very clear that, above all, the Commission has absolute respect for the decisions of this Parliament and, amongst those, the decision establishing its agenda. We therefore respect whatever Parliament may decide.
+But I would also like to make it very clear that President Prodi made a commitment to this Parliament to introduce a new debate, as Mr Barón Crespo has reminded us, which would be in addition to the annual debate on the Commission' s legislative programme, on the broad areas of action for the next five years, that is to say, for this legislature.
+Madam President, I would like to say that the agreement reached in September distinguished this debate from the annual presentation of the Commission' s legislative programme. I would also like to say that the Commission is prepared and ready to hold this debate whenever it is convenient and that we were ready to do so this week as we had agreed originally, on the basis that it would be presented the day before in a speech to parliamentary groups.
+Therefore, Madam President, I would like to repeat that the Commission has debated the action plan for the next five years and, when Parliament decides, - this week if that is the decision - we are prepared to come and explain the programme for the next five years and, next month, the programme for 2000, which is what we fully agreed upon.
+
+I propose that we vote on the request of the Group of the Party of European Socialists that the Commission statement on its strategic objectives should be reinstated.
+(Parliament rejected the request) President. Still on the subject of Wednesday' s sitting, I have another proposal regarding the oral question on capital tax. The PPE-DE Group is requesting that this item be taken off the agenda.
+Is there a member who wishes to speak on behalf of this Group to propose this?
+
+Madam President, I can hear a ripple of laughter from the Socialists. I was told that large sections of the Socialist Group were also keen to have this item taken off the agenda, because at the vote in the Conference of Presidents no vote was received from the working group of Members of the Socialist Group responsible for this matter. I do not know whether this information is correct, but the PPE-DE Group would, in any case, be grateful if this item were removed because Parliament has addressed this issue several times already. Decisions have also been adopted against a tax of this kind. That is why my Group moves that this item be taken off the agenda.
+
+Thank you, Mr Poettering.
+We shall now hear Mr Wurtz speaking against this request.
+
+Madam President, I would firstly like to point out Mr Poettering' s lack of logic. He has just been preaching to the Group of the Party of European Socialists because they went back on a decision taken in a perfectly clear manner at the Conference of Presidents, and now he is doing just the same. We discussed that matter and we were unanimous, with the exception of the PPE and ELDR Groups. As my fellow chairmen will recall, I even mentioned that it was not a matter of knowing whether one was for or against the Tobin tax, but of whether one dared to hear what the Commission and the Council thought of it. It is not a lot to ask. I therefore repeat the proposal that this oral question to the Commission and the Council should be retained so that we can find out, once and for all, the positions of these two bodies regarding the proposal which is relatively modest but which would give a clear message to public opinion, particularly after the tide of feeling generated by the failure of the Seattle Conference.
+
+We shall proceed to vote on the PPE-DE Group' s request that the oral question regarding the capital tax be withdrawn from the agenda.
+(Parliament rejected the request, with 164 votes for, 166 votes against and 7 abstentions)
+
+Madam President, I would like to thank Mr Poettering for advertising this debate. Thank you very much.
+
+Madam President, has my vote been counted? I was unable to vote electronically, since I do not have a card. My vote was "in favour" .
+
+Indeed, if we add the two Members who have declared themselves, then the result of the vote would be ....
+
+Madam President, the Presidency has already declared the result of the vote. There is no room for amendments.
+
+Ladies and gentlemen, once again, we see it is essential for Members to bring their voting cards along on a Monday. Clearly there is a problem here. That being the case, I shall have to make a decision.
+I too forgot my card, and I would have voted against. I therefore consider that the oral question may be kept on the agenda as per the vote.
+This is the last time that we shall make allowances for Members who have forgotten their cards. Let that be clearly noted and understood.
+(Applause)The oral question will therefore remain on the agenda, and yes, your President is entitled to vote just as she is entitled to forget her voting card.
+We shall continue with the other amendments to the agenda.
+
+Madam President, in the earlier vote - and I will abide by your ruling on this matter - on the question of the strategic plan of the Commission I indicated that I would like to speak in advance of the vote on behalf of my Group. That did not happen. I would appreciate it if, on the close of this item of business, I might be allowed to give an explanation of vote on behalf of my Group. This is an important matter. It would be useful for the record of the House to state how people perceive what we have just done in the light of their own political analysis.
+
+Madam President, I do not wish to reopen the debate, but I had also asked for the floor, to comment on Mr Barón Crespo's motion. You did not call me either. I regret this, but the vote has already been taken and the decision is made so let us leave the matter there.
+
+I am terribly sorry, Mr Hänsch and Mr Cox. I did not see you asking to speak. Even so, I think the positions are quite clear and they shall be entered in the Minutes. When we adopt the Minutes for today' s sitting tomorrow, then any Members who think the positions have not been explained clearly enough may ask for amendments. This seems to me to be a workable solution. Of course, the Minutes for tomorrow' s sitting will take into account any additional explanations. I think this is a better solution than proceeding now to extremely time-consuming explanations of votes. Mr Cox, Mr Hänsch, would this be acceptable to you?
+
+Madam President, if the vote records correctly how my Group voted I shall not, and cannot, object to that. If your ruling is that I cannot give an explanation of vote, I accept that but with reservations.
+
+We shall pay particular attention to the wording of the Minutes, as we always do, of course. If they do not properly reflect the positions adopted, then we may correct them, if necessary.
+(The order of business was adopted thus amended)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/es.test b/tika-core/src/test/resources/org/apache/tika/language/es.test
new file mode 100644
index 0000000000..c113c5ea30
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/es.test
@@ -0,0 +1,107 @@
+Reanudación del período de sesiones
+Declaro reanudado el período de sesiones del Parlamento Europeo, interrumpido el viernes 17 de diciembre pasado, y reitero a Sus Señorías mi deseo de que hayan tenido unas buenas vacaciones.
+Como todos han podido comprobar, el gran "efecto del año 2000" no se ha producido. En cambio, los ciudadanos de varios de nuestros países han sido víctimas de catástrofes naturales verdaderamente terribles. Sus Señorías han solicitado un debate sobre el tema para los próximos días, en el curso de este período de sesiones. A la espera de que se produzca, de acuerdo con muchos colegas que me lo han pedido, pido que hagamos un minuto de silencio en memoria de todas las víctimas de las tormentas, en los distintos países de la Unión Europea afectados. Invito a todos a que nos pongamos de pie para guardar un minuto de silencio.
+(El Parlamento, de pie, guarda un minuto de silencio)
+
+Señora Presidenta, una cuestión de procedimiento. Sabrá usted por la prensa y la televisión que se han producido una serie de explosiones y asesinatos en Sri Lanka. Una de las personas que recientemente han asesinado en Sri Lanka ha sido al Sr. Kumar Ponnambalam, quien hace pocos meses visitó el Parlamento Europeo. ¿Sería apropiado que usted, Señora Presidenta, escribiese una carta al Presidente de Sri Lanka expresando las condolencias del Parlamento por esa y otras muertes violentas, pidiéndole que haga todo lo posible para encontrar una reconciliación pacífica ante la extremadamente difícil situación que está viviendo su país?
+
+Sí, señor Evans, pienso que una iniciativa como la que usted acaba de sugerir sería muy adecuada. Si la Asamblea está de acuerdo, haré lo que el señor Evans acaba de sugerir.
+
+ Señora Presidenta, una cuestión de procedimiento. Me gustaría que me asesorara sobre el Artículo 143 concerniente a la inadmisibilidad. Mi pregunta se refiere a un asunto del que se hablará el jueves, día que en volveré a plantearla.
+El informe Cunha sobre los programas de dirección plurianual se presenta al Parlamento el jueves y contiene una propuesta en el apartado 6 en torno a una forma de penalizaciones basada en cuotas que debe aplicarse a los países que no cumplan anualmente sus objetivos de reducción de flota. El informe estipula que se debe aplicarse a pesar del principio de estabilidad relativa. Creo que el principio de estabilidad relativa es un principio legal fundamental de las políticas pesqueras comunitarias, por lo que una propuesta que lo subvierta es legalmente inadmisible. Quiero saber si se puede hacer este tipo de objeción a lo que sólo es un informe, no una propuesta legislativa, y si es algo que puedo plantear el jueves.
+
+Su Señoría, si así lo desea, podrá plantear esta cuestión en ese momento, es decir, el jueves antes de que se presente el informe.
+
+Señora Presidenta, coincidiendo con el primer período parcial de sesiones de este año del Parlamento Europeo, lamentablemente, en los Estados Unidos, en Texas, se ha fijado para el próximo jueves la ejecución de un condenado a la pena capital, un joven de 34 años que llamaremos con el nombre de Hicks.
+A petición de un diputado francés, el Sr. Zimeray, se ha presentado una solicitud, cuyos firmantes han sido numerosos y entre los cuales me cuento, sin embargo, de conformidad con la posición constantemente expresada por el Parlamento Europeo y por toda la Comunidad europea, le pido que intervenga con el prestigio de su cargo y de la Institución que representa ante el Presidente y el Gobernador del Estado de Texas, Sr. Bush, que tiene la facultad de suspender la condena a muerte y de indultar al condenado.
+Todo ello, de conformidad con los principios que siempre hemos apoyado.
+
+Gracias, señor Segni, lo haré de muy buen grado. Está, sin duda, dentro de la línea de las posiciones que nuestro Parlamento siempre ha adoptado.
+
+Señora Presidenta, quisiera llamar la atención de usted acerca de un caso del que se ha ocupado una y otra vez este Parlamento. Es el caso de Alexander Nikitin. Todos celebramos aquí que el tribunal le haya declarado inocente y que haya puesto de manifiesto que también en Rusia el acceso a la información sobre el medio ambiente es un derecho constitucional. Sin embargo, sucede que va a ser acusado de nuevo, pues el fiscal interpondrá un recurso. Sabemos y lo hemos afirmado realmente en muchas resoluciones -precisamente en la última sesión plenaria del año pasado- que éste no es solamente un caso jurídico y que es un error acusar a Alexander Nikitin de conducta criminal y de traición, porque nosotros, como afectados por sus resultados, obtengamos provecho de ella. Esos resultados constituyen la base de los programas europeos del mar de Barent y, por ello, le pido que estudie un borrador de carta que le describe los hechos más relevantes y que haga patente a Rusia esta posición que es acorde con las decisiones del Parlamento.
+
+Sí, señora Schroedter, de buena gana voy a examinar los hechos relacionados con este tema en cuanto reciba su carta.
+
+Señora Presidenta, en primer lugar me gustaría felicitarla por haber cumplido con su promesa ya que efectivamente en este primer periodo de sesiones del año nuevo se ha ampliado drásticamente el número de canales en nuestros despachos. Sin embargo, señora Presidenta, no se ha hecho lo que yo había pedido. Bien es verdad que ahora hay dos canales finlandeses y uno portugués, pero aún no hay ninguno neerlandés y yo le había pedido un canal neerlandés, porque también los neerlandeses quisiéramos escuchar las noticias cada mes, cuando nos mandan a este exilio. Por lo tanto quisiera pedirle nuevamente que se encargue de que podamos ver también un canal neerlandés.
+
+Señora Plooij-van Gorsel, puedo decirle que esa cuestión está en el orden del día de la reunión de cuestores fijada para el miércoles. Espero que se examine con un espíritu positivo.
+
+Señora Presidenta, ¿podría decirme por qué este Parlamento no cumple la legislación de sanidad y seguridad que en realidad ha aprobado? ¿Por qué no se ha hecho ninguna prueba de calidad del aire de este edificio desde que hemos sido elegidos? ¿Por qué no se ha celebrado ninguna reunión del Comité de Sanidad y Seguridad desde 1998? ¿Por qué no hemos tenido simulacros de incendio ni en los edificios del Parlamento de Bruselas ni en los del Parlamento de Estrasburgo? ¿Por qué no hay instrucciones en caso de incendio? ¿Por qué no se han mejorado las escaleras desde mi accidente? ¿Por qué no se respetan las áreas de no fumadores? Es totalmente vergonzoso que aprobemos una legislación y no la cumplamos ni nosotros mismos.
+
+Señora Lynne, tiene toda la razón del mundo, y verificaré si estas cosas no se han hecho de verdad. También someteré el problema a la Junta de Cuestores, y estoy segura de que los cuestores harán lo debido para que respetemos las normas que, efectivamente, nosotros mismos votamos.
+
+Sra. Presidenta, la Sra. Díez González y yo mismo habíamos presentado unas preguntas sobre determinadas opiniones, reproducidas en un diario español, de la Vicepresidenta, Sra. de Palacio. Los servicios competentes no las han incluido en el orden del día por considerar que ya habían sido contestadas en una sesión anterior.
+Ruego que se reconsidere esta decisión porque esto no es así. Las preguntas contestadas con anterioridad se referían a la intervención, en determinado expediente, de la Sra. de Palacio, no a esas declaraciones aparecidas en el diario ABC el 18 de noviembre pasado.
+
+Señoría, vamos a verificar todo esto. Le confieso que, de momento, las cosas me parecen un tanto confusas. Por consiguiente, vamos a revisarlas con seriedad para que todo esté en orden.
+
+Señora Presidenta, me gustaría saber si el Parlamento emitirá esta semana un comunicado claro sobre el descontento por la decisión de hoy de no renovar el embargo de armas a Indonesia, considerando que la inmensa mayoría de este Parlamento apoyó en el pasado el embargo de armas a Indonesia. La decisión de hoy de no renovar el embargo es extremadamente peligrosa teniendo en cuenta la situación de ese país. Por lo tanto, el Parlamento debe enviar un mensaje, ya que ése es el deseo de la inmensa mayoría. Es irresponsable por parte de los Estados Miembros de la UE negarse a renovar el embargo. Como ha dicho la gente, la situación allí es extremadamente precaria. De hecho, existe el riesgo de un golpe militar en el futuro. No sabemos lo que está ocurriendo allí. ¿Por qué tienen que beneficiarse los productores de armas de la UE a expensas de gente inocente?
+
+En cualquier caso, este tema no figura ahora mismo entre las demandas de urgencia para el jueves próximo.
+
+Orden de los trabajos
+De conformidad con el orden del día, se procede a examinar el proyecto definitivo de orden del día, establecido de conformidad con el artículo 110 del Reglamento en la Conferencia de Presidentes, el jueves 13 de enero. En lo relativo al lunes y al martes, no hay modificaciones.
+Miércoles :
+El Grupo del Partido de los Socialistas Europeos solicita que se incluya una declaración de la Comisión sobre sus objetivos estratégicos para los próximos cinco años, así como sobre la reforma administrativa de la Comisión.
+Desearía que el Sr. Barón Crespo, autor de la petición, interviniera para justificarla, si a él le parece adecuado, por supuesto. Como siempre, escucharemos a un orador a favor y a otro en contra.
+
+Señora Presidenta, la presentación del programa político de la Comisión Prodi para toda la legislatura fue inicialmente una propuesta del Grupo del Partido de los Socialistas Europeos que logró la unanimidad de la Conferencia de Presidentes en septiembre y también la aceptación explícita del Presidente Prodi, que reiteró su compromiso en su discurso de investidura.
+Tiene importancia este compromiso en la medida en que la Comisión es un organismo que tiene el monopolio de la iniciativa de acuerdo con los Tratados y, por lo tanto, configura básicamente lo que va a ser la actividad política y legislativa de este Parlamento en los próximos cincos años. Recuerdo además, señora Presidenta, que este Parlamento votó en dos ocasiones en la anterior legislatura su confianza en el Presidente Prodi; en esta legislatura la votó de nuevo en julio y después, con la nueva Comisión en funciones, volvió en septiembre a darle un voto de confianza a toda la Comisión. Por lo tanto, ya ha habido tiempo suficiente para que la Comisión prepare su programa y para que nosotros lo podamos conocer y podamos explicárselo a los ciudadanos. En este sentido recuerdo la resolución del 15 de septiembre, en la que se recomendaba que se presentara la propuesta en el plazo más breve posible.
+Los hechos ocurridos la semana pasada -que se han originado al margen de la Conferencia de Presidentes y utilizándola sólo para corroborar y ratificar decisiones tomadas fuera de ella- plantean un dilema: o bien la Comisión no está en condiciones de presentar ese programa (en ese caso convendría que lo aclarara. Según palabras de su Presidente, está en condiciones de hacerlo. Dado que la Comisión está representada por la Vicepresidenta, Sra. de Palacio, creo que antes de votar sería conveniente conocer la situación de la Comisión en relación con su disponibilidad para presentar el programa, tal como se había convenido); o bien el Parlamento no está en condiciones de examinar este programa, como parece que pretenden algunos. En mi opinión, esta segunda hipótesis significaría hacer dejación de nuestras responsabilidades como Parlamento, además de introducir una tesis original, un método desconocido consistente en dar a conocer a los grupos políticos por escrito el discurso programático de la Comisión una semana antes -y no el día antes, como se había convenido-, teniendo en cuenta que el programa legislativo se discutirá en febrero, de tal manera que podríamos prescindir del debate, porque al día siguiente la prensa e Internet lo habrían dado a conocer a todos los ciudadanos y el Parlamento no tendría ya por qué ocuparse del asunto.
+Como mi Grupo opina que un Parlamento está hecho para escuchar, para debatir y para reflexionar, pensamos que no hay razón alguna que justifique este aplazamiento y creemos que si, la Comisión está en condiciones de hacerlo, estamos perfectamente a tiempo para poder restablecer el acuerdo original entre el Parlamento y la Comisión y proceder con responsabilidad ante nuestras conciudadanas y nuestros conciudadanos. Por lo tanto, la propuesta que hace el Grupo del Partido de los Socialistas Europeos y que su Señoría ha mencionado es que el miércoles se mantenga la presentación del programa de legislatura de la Comisión Prodi, incluyendo dentro de este programa también el proyecto de reforma administrativa porque, de no ser así, nos podemos encontrar con una situación paradójica: con la excusa de que no hay texto, se niega por una parte el derecho al Presidente de la Comisión a hablar en este Parlamento y, por otra parte, que tenga lugar un debate sobre la reforma sin que este Parlamento conozca previamente los textos en que se basa. Por lo tanto, le ruego, señora Presidenta, que pida a la Comisión que se manifieste en este momento y después que se proceda al voto.
+(Aplausos del grupo PSE)
+
+Señora Presidenta, estimados colegas, estoy un tanto sorprendido por la conducta de nuestro colega, el Sr. Barón Crespo, que ahora pide que este punto del orden del día se incluya en el orden del día del miércoles.
+Señor Barón Crespo, usted no pudo asistir el jueves pasado a la Conferencia de Presidentes. No se lo critico; ocurre a veces que se delega la representación. Nuestro colega, el Sr. Hänsch, le representó a usted en la misma. En la Conferencia de Presidentes, tuvimos un debate muy minucioso. Solamente su Grupo mantuvo lo que usted dice ahora. Votamos luego. Cada Presidente o cada Presidenta tiene tantos votos como miembros tiene su Grupo. Hubo una votación sobre este punto. Según recuerdo el resultado de la votación fue el siguiente: 422 votos contra 180 con unas pocas abstenciones. Esto significa que todos los Grupos, con excepción de los que no pertenecen a grupos -los cuales, ciertamente, no constituyen grupo alguno- estaban de acuerdo. Sólo su Grupo opinaba que había que proceder tal como usted acaba de proponer aquí. Todos los demás eran de otra opinión. Así fue el acuerdo.
+Ahora quisiera decir algo sobre el asunto mismo. Nosotros tenemos confianza en la Comisión, en Romano Prodi, y la gran mayoría de nuestro Grupo manifestó su confianza a Romano Prodi y a la Comisión después de un difícil proceso, como todos sabemos. Sin embargo, somos también de la opinión de que debemos celebrar un debate sobre esta estrategia de la Comisión en un procedimiento, no sólo a causa de una explicación oral que ha tenido lugar aquí, en el Parlamento Europeo, sino también a causa de un documento que se ha aprobado en la Comisión y que describe este programa para cinco años. Tal documento no está.
+La Comisión presentará en febrero el programa para el año 2000. Nosotros hemos dicho, bueno, si la Comisión no quiere hacer todavía el Programa 2000 en enero, hagámoslo en febrero. Hemos otorgado nuestra conformidad. En efecto, no queremos tener ninguna disputa con la Comisión, sino que somos de la opinión de que, si es posible, la Comisión y el Parlamento han de marchar por un camino común. Pero, como Parlamento, somos la instancia controladora de la Comisión. Y no todo lo que proceda de la Comisión debe ser opinión nuestra.
+Quisiera que en los Grupos nos pudiéramos preparar razonablemente para un debate sobre el programa para cinco años. No es posible una preparación, si se escucha aquí una declaración y no se sabe cuál es el contenido de tal declaración. Por esta razón, nuestra propuesta -y mi impresión es que la Comisión se encuentra también abierta a estas ideas- es que celebremos en febrero el debate sobre el plan a largo plazo de la Comisión hasta el año 2005 -espero que de aquí a allá la Comisión se ponga también de acuerdo en un programa que tendrá que proponernos- y que nosotros, en febrero, celebremos también, al mismo tiempo, el debate sobre el programa legislativo de la Comisión para el año 2000. Por consiguiente, es un contexto objetivo y sensato el que nos aconseja celebrar conjuntamente el debate sobre ambos programas. Por esta razón mi Grupo rechaza de manera decidida la propuesta del Grupo Socialista.
+(Aplausos del Grupo PPE-DE)
+. Señora Presidenta, quiero dejar muy claro que, ante todo, la Comisión tiene el máximo respeto por las decisiones de este Parlamento y, entre ellas, la de establecer su orden del día. Por lo tanto, nosotros respetamos lo que en este sentido pueda decidir el Parlamento.
+Pero quiero dejar también muy claro que el Presidente Prodi se comprometió con el Parlamento a incorporar un nuevo debate, como ha recordado el Sr. Barón, que se añade al debate anual sobre el programa legislativo de la Comisión, sobre las grandes líneas de actuación para el próximo período de cinco años, es decir, para esta legislatura.
+Quiero decir, señora Presidenta, que este debate se distinguía, en el acuerdo al que se llegó en el mes de septiembre, de lo que es la presentación anual del programa legislativo de la Comisión. Y quiero decir, señora Presidenta, que, por parte de la Comisión, estamos preparados y dispuestos a tener ese debate cuando convenga, que estábamos preparados para desarrollarlo esta semana, como en principio se había acordado, partiendo de la base de que se presentaba la víspera en un discurso a los grupos parlamentarios.
+Por lo tanto, señora Presidenta, quiero reiterar que, por nuestra parte, hemos debatido el programa de actuación para los próximos cinco años y que estamos preparados para, cuando así lo decida el Parlamento, -esta misma semana si ésa es la decisión- venir a exponer el programa para los próximos cinco años y, el mes que viene, el programa para el año 2000, que era lo que estaba perfectamente acordado.
+
+Propongo que votemos la petición del Grupo del Partido de los Socialistas Europeos para volver a incluir la declaración de la Comisión sobre sus objetivos estratégicos.
+(El Parlamento rechaza la petición) El Presidente. Sobre el tema del miércoles, tengo otra propuesta relativa a la pregunta oral sobre el impuesto al capital. El grupo PPE-DE solicita que se retire este punto del orden del día.
+¿Algún colega tomará la palabra en nombre del grupo para justificar esta petición?
+
+Señora Presidenta, escucho algunas risas entre los socialistas. Me han dicho que también amplios círculos del Grupo Socialista ven de buen grado la supresión de este punto del orden del día, ya que en la votación habida en la Conferencia de Presidentes faltó el voto del grupo de trabajo competente para ello de nuestros colegas del Grupo Socialista. Ignoro si esta información es correcta, pero nosotros como Grupo del PPE/DE agradeceríamos en cualquier caso que se suprimiera este punto, ya que el Parlamento se ha ocupado ya numerosas veces de esta cuestión. También existen acuerdos contra semejante impuesto. Por consiguiente, mi Grupo solicita que se suprima este punto del día.
+
+Gracias, señor Poettering.
+Escuchemos ahora al Sr. Wurtz, que hablará en contra de la petición.
+
+Señora Presidenta, ante todo quiero subrayar la falta de lógica del señor Poettering, que acaba de dar una lección al Grupo de los Socialista Europeos para que se vuelva a tratar una decisión que se tomó de un modo absolutamente claro en la Conferencia de Presidentes. Y él hace lo mismo. Hemos discutido, expresamos unanimidad, con excepción de los Grupos del PPE y del Partido Europeo de los Liberales Demócratas y Reformistas, y yo mismo hice notar -como lo recordarán mis queridos compañeros presidentes- que no se trata de saber si están ustedes a favor o en contra del impuesto Todin, sino de saber si se atreven a comprender lo que piensan al respecto la Comisión y el Consejo. No es pedir demasiado. Por lo tanto, reitero la propuesta de mantener esta pregunta oral a la Comisión y al Consejo para saber de una vez por todas cuál es la posición de esos dos órganos en lo que se refiere a esta propuesta relativamente modesta, pero que sería una señal importante para la opinión, sobre todo después de la conmoción que suscitó el fracaso de la Conferencia de Seattle.
+
+Se vota la propuesta del Grupo PPE-DE para retirar del orden del día la pregunta oral referida al impuesto sobre el capital.
+(El Parlamento rechaza la propuesta por 164 votos a favor, 166 votos en contra y 7 abstenciones)
+
+Señora Presidenta, quiero agradecer al señor Poettering la publicidad que acaba de dar a este debate. Gracias.
+
+Señora Presidenta, ¿se ha contabilizado mi voto, que no ha podido ser realizado electrónicamente, porque no tengo la tarjeta? Mi voto era "a favor" .
+
+En efecto, si se suman los dos colegas que han hablado, el resultado sería...
+
+
+Señora Presidenta, la Presidencia ha proclamado el resultado de la votación. No caben modificaciones.
+
+Señorías, repito una vez más que es preciso que todos tengamos la tarjeta. Es evidente que se trata de un problema. En estas circunstancias, debo tomar una decisión.
+También yo he olvidado mi tarjeta y habría votado en contra. Considero, pues, que la pregunta oral se mantiene en el orden del día.
+
+Es la última vez que tomaremos en cuenta las tarjetas olvidadas. Que esto quede bien claro y que se avise a todos.
+(Aplausos)
+Sí, la pregunta oral se mantiene en el orden del día y sí, la Presidenta tiene el derecho de votar, como también tiene el derecho de olvidar su tarjeta.
+Continuamos con las otras modificaciones del orden del día.1
+
+Señora Presidenta, en la votación anterior -y me atendré a su decisión en este asunto- sobre la cuestión del plan estratégico de la Comisión, indiqué que me habría gustado hablar antes de la votación en nombre de mi Grupo. Esto no ha ocurrido. Le agradecería que, al cierre de este punto, se me permitiera dar una explicación del voto en nombre de mi Grupo. Es un asunto importante. Sería útil que el historial de la Cámara registrara cómo percibe la gente lo que hemos hecho a la luz de sus propios análisis políticos.
+
+Señora Presidenta, no deseo reanudar el debate, pero había pedido también la palabra para dar mi opinión acerca de la enmienda del Sr. Barón Crespo. Tampoco me ha nombrado usted. Lo lamento, pero la votación se ha realizado, se ha adoptado la decisión y, por consiguiente, dejemos así las cosas.
+
+Lo siento mucho, señor Hänsch, señor Cox, no he advertido que ustedes pedían la palabra. En estas circunstancias, creo que las posiciones están claras y que se reflejarán en el Acta. Cuando mañana se trate la aprobación del Acta de la sesión de hoy, si Sus Señorías estiman que las posiciones no se han explicado lo bastante bien, podrán pedir modificaciones. Creo que es una buena fórmula. Por supuesto que el Acta de la sesión de mañana consignará todas las explicaciones complementarias. Creo que esta fórmula es mejor que la de proceder ahora a unas explicaciones de voto que nos llevarían mucho tiempo. Sr. Hänsch, Sr. Cox, ¿les parece bien?
+
+ Señora Presidenta, si en el registro de la votación consta correctamente cómo ha votado mi Grupo, ni quiero ni puedo plantear objeción alguna. Si su decisión es que no podemos explicar nuestro voto, la acataré, pero no sin reservas.
+
+Examinaremos con cuidado la redacción del Acta, aunque es algo que siempre hacemos. Si no refleja bien las posiciones, se podrá corregir.
+
+(El Parlamento aprueba el orden de los trabajos así modificado)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/et.test b/tika-core/src/test/resources/org/apache/tika/language/et.test
new file mode 100644
index 0000000000..16bbfabf22
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/et.test
@@ -0,0 +1,17 @@
+Kogu maailmas aga oli üks keel ja ühesugused sõnad.
+
+Ja sündis, kui nad hommiku poolt teele läksid, et nad Sinearimaal leidsid oru ja jäid sinna elama.
+
+Nad ütlesid üksteisele: "Tehkem nüüd telliskive ja põletagem neid hästi." Siis olid telliskivid neile ehituskivideks ja maapigi oli saviks.
+
+Ja nad ütlesid: "Tulge, ehitagem enestele linn ja torn, mille tipp oleks taevas, ja tehkem enestele nimi, et me ei hajuks üle kogu maailma!"
+
+Aga Jehoova tuli alla vaatama linna ja torni, mida inimlapsed ehitasid.
+
+Ja Jehoova ütles: "Vaata, rahvas on üks ja neil kõigil on üks keel, ja see on alles nende tegude algus. Nüüd ei ole neil võimatu ükski asi, mida nad kavatsevad teha!
+
+Mingem nüüd alla ja segagem seal nende keel, et nad üksteise keelt ei mõistaks!"
+
+Ja Jehoova pillutas nad sealt üle kogu maailma ja nad jätsid linna ehitamata.
+
+Seepärast pandi sellele nimeks Paabel, sest seal Jehoova segas ära kogu maailma keele ja sealt pillutas Jehoova nad üle kogu maailma.
diff --git a/tika-core/src/test/resources/org/apache/tika/language/fi.test b/tika-core/src/test/resources/org/apache/tika/language/fi.test
new file mode 100644
index 0000000000..6fd7f6d5ec
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/fi.test
@@ -0,0 +1,106 @@
+Istuntokauden uudelleenavaaminen
+ Julistan perjantaina joulukuun 17. päivänä keskeytetyn Euroopan parlamentin istunnon avatuksi ja esitän vielä kerran vilpittömän toiveeni siitä, että teillä olisi ollut oikein mukava joululoma.
+Kuten olette varmaan saattaneet huomata, vuodenvaihteeseen 2000 povattuja suuria tietokoneongelmia ei ilmennytkään. Sen sijaan todella kauheat luonnonkatastrofit koettelivat kansalaisia joissakin unionimme maissa. Te olette esittäneet toiveen, että tästä asiasta keskusteltaisiin lähipäivinä tämän istuntojakson aikana. Sillä välin toivoisin, kuten useampi kollega on minulle esittänytkin, että viettäisimme minuutin hiljaisuuden kaikkien niiden uhrien muistoksi, jotka saivat surmansa useita Euroopan unionin maita koetelleissa myrskyissä. Kehotan, että nousette seisomaan tämän minuutin hiljaisuuden ajaksi
+(Parlamentti vietti seisaallaan minuutin hiljaisuuden.)
+
+Arvoisa puhemies, käytän työjärjestyspuheenvuoron. Olette varmaan saaneet tietoonne lehdistön ja television kautta, että Sri Lankassa on sattunut useita kuolemaan johtaneita pommi-iskuja. Näiden Sri Lankassa aivan äskettäin surmansa saaneiden ihmisten joukossa on Kumar Ponnambalam, joka vieraili parlamentissa vain pari kuukautta sitten. Kävisikö teille, arvoisa puhemies, että kirjoittaisitte Sri Lankan presidentille kirjeen, jossa välittäisitte surunvalittelut parlamentin puolesta Ponnambalanin kuoleman ja muiden Sri Lankassa sattuneiden väkivaltaisten kuolemantapausten johdosta ja jossa pyytäisitte presidenttiä tekemään kaikkensa, jotta tähän hyvin vaikeaan tilanteeseen löydettäisiin rauhanomainen sovitteluratkaisu?
+
+ Kyllä, jäsen Evans, mielestäni äsken ehdottamanne suuntainen aloite olisi varsin oikeaan osuva. Jos parlamentin jäsenet kannattavat sitä, teen niin kuin jäsen Evans ehdotti.
+
+Arvoisa puhemies, käytän työjärjestyspuheenvuoron. Haluaisin, että kertoisitte mielipiteenne työjärjestyksen 143 artiklasta, joka koskee sitä, milloin jotakin asiaa ei oteta käsiteltäväksi. Kysymykseni liittyy erääseen seikkaan, jota käsitellään torstaina ja jonka otan silloin taas esille.
+Cunhan monivuotisia ohjausohjelmia koskevaa mietintöä käsitellään parlamentissa torstaina, ja sen 6 kohtaan sisältyy ehdotus, jonka mukaan niiden maiden kohdalla, jotka eivät suoriudu vuosittaisista laivueita koskevista supistamistavoitteistaan, otetaan käyttöön eräänlaisia kiintiöiden vähentämistä tarkoittavia rangaistuksia. Mietinnössä sanotaan, että näin olisi tehtävä suhteellisen vakauden periaatteesta huolimatta. Uskon, että suhteellisen vakauden periaate on perusluonteinen oikeudellinen periaate yhteisen kalastuspolitiikan alalla ja että ehdotusta, jossa sitä horjutetaan, olisi lainsäädännöllisesti mahdoton hyväksyä. Haluaisin tietää, onko mahdollista esittää tällainen vastalause, jonka kohteena on pelkkä mietintö eikä lakiehdotus, ja onko minulla valtuuksia esittää tällainen vastalause torstaina.
+
+ Te voitte tosiaankin juuri silloin tehdä tämän esityksen, mikäli sitä haluatte, eli torstaina ennen mietinnön käsittelyn alkamista.
+
+Arvoisa puhemies, samanaikaisesti Euroopan parlamentin tämän vuoden ensimmäisen istuntojakson kanssa Texasissa Yhdysvalloissa päätettiin, että eräs nuori - 34-vuotias - kuolemaantuomittu, nimeltään Hicks, teloitetaan valitettavasti ensi perjantaina.
+Ranskalaisen parlamentin jäsenen Zimerayn pyynnöstä on esitetty vetoomus, jonka monet ovat allekirjoittaneet, ja olen itse yksi heistä, mutta pyydän, että te Euroopan parlamentin ja koko Euroopan yhteisön johdonmukaisesti osoittaman kannan mukaisesti otatte virkanne suoman ja edustamanne toimielimen arvovallan voimin yhteyttä Texasin osavaltion johtajaan, kuvernööri Bushiin, jolla on valtuudet kumota kuolemantuomio ja armahtaa kuolemaantuomittu.
+Ja kaikki tämä niiden periaatteiden mukaisesti, joita olemme aina puolustaneet.
+
+ Kiitos, jäsen Segni, teen sen oikein mielelläni. Se on tosiaankin täysin niiden periaatteiden mukaista, joita parlamentti on aina puolustanut.
+
+Arvoisa puhemies, haluaisin kiinnittää huomionne tapaukseen, jota tämä parlamentti on käsitellyt toistuvasti. Se on tapaus Aleksandr Nikitin. Me kaikki täällä parlamentissa olemme iloisia siitä, että oikeus vapautti hänet ja teki selväksi, että ympäristöä koskevien tietojen saaminen on perustuslaillinen oikeus myös Venäjällä. Tilanne on nyt kuitenkin se, että hän on joutunut uudelleen syytteeseen, koska yleinen syyttäjä valittaa oikeuden päätöksestä. Me tiedämme ja olemme todenneet sen todellakin erittäin monissa päätöslauselmissa - nimenomaan viime vuoden viimeisessä täysistunnossa -, että tämä ei ole pelkästään oikeustapaus ja on väärin syyttää Aleksandr Nikitiniä rikollisuudesta ja petoksesta, koska me asianosaisina hyödymme hänen tuloksistaan. Nämä tulokset muodostavat pohjan eurooppalaisille Barentsinmeren suojeluohjelmille, ja pyydän teitä siksi tarkastelemaan huolellisesti kirjeluonnosta, jossa selitetään tärkeimmät tosiasiat, ja tekemään tämän kannan selväksi Venäjällä parlamentin päätösten hengessä.
+
+ Kyllä jäsen Schroedter, saatuani kirjeenne otan varsin mielelläni selvää tähän kysymykseen liittyvistä seikoista.
+
+Arvoisa puhemies, haluaisin aluksi kiittää teitä siitä, että olette pitänyt sananne ja että nyt uuden vuoden ensimmäisen istuntojakson aikana huoneissamme näkyvien televisiokanavien määrä on todellakin kasvanut valtavasti. Arvoisa puhemies, se, mitä minä pyysin, ei ole kuitenkaan toteutunut. Nyt näkyvissä on kaksi suomalaista kanavaa ja yksi portugalilainen kanava, ja minä pyysin teiltä alankomaalaista kanavaa, koska myös alankomaalaiset haluavat seurata uutisia joka kuukausi, kun meidät lähetetään tänne karkotuspaikkaan. Haluaisin pyytää teitä vielä kerran huolehtimaan siitä, että me saamme myös alankomaalaisen kanavan.
+
+ Jäsen Plooij-van Gorsel, voin kertoa, että kyseinen asia on kvestorien ensi keskiviikon kokouksen esityslistalla. Toivon, että sitä käsitellään myönteisessä hengessä.
+
+Arvoisa puhemies, voitteko kertoa minulle, miksi parlamentti ei noudata terveyttä ja turvallisuutta koskevaa lainsäädäntöä, jonka se oikeastaan itse hyväksyy? Miksei juuri tämän rakennuksen ilmanlaatua ole testattu sinä aikana, kun olemme olleet jäseniä? Miksi terveys- ja turvallisuusasioista vastaava komitea ei ole kokoontunut vuoden 1998 jälkeen? Miksi parlamentin Brysselin tiloissa tai Strasbourgin tiloissa ei ole järjestetty paloharjoituksia? Miksi tulipalon varalta ei ole annettu ohjeita? Miksi portaikossa ei ole tehty parannuksia minulle sattuneen onnettomuuden jälkeen? Miksi "tupakointi kielletty" -alueita ei ole pantu täytäntöön? On todella noloa, että hyväksymme lakeja emmekä noudata niitä itse.
+
+Jäsen Lynne, te olette täysin oikeassa, ja aion tarkistaa, eikö kaikkea tätä todellakaan ole tehty. Toimitan myös tämän ongelman kvestorikollegion käsiteltäväksi ja olen varma, että kvestoreillemme on erittäin tärkeää toimia niin, että noudatamme sellaista lainsäädäntöä, jonka olemme itse hyväksyneet.
+
+Arvoisa puhemies, Díez González ja minä olimme esittäneet muutamia kysymyksiä, jotka koskivat tiettyjä komission varapuheenjohtaja de Palacion lausuntoja, jotka julkaistiin eräässä espanjalaisessa päivälehdessä. Toimivaltaiset yksiköt eivät ole ottaneet kysymyksiä esityslistalle, koska yksiköiden mukaan niihin on jo vastattu aiemmalla istuntojaksolla.
+Pyydän, että tämä päätös perutaan, sillä asia ei ole niin. Ne kysymykset, joihin aiemmin vastattiin, liittyvät komission varapuheenjohtaja De Palacion puheenvuoroon eräässä asiassa, eikä näihin viime marraskuun 18. päivänä ABC-lehdessä julkaistuihin lausuntoihin.
+
+Hyvä kollega, tarkistamme asian. Minun täytyy myöntää, että tällä hetkellä asiat vaikuttavat minusta hieman sekavilta. Niinpä käymme asian erittäin tarkasti läpi, jotta kaikki saadaan hyvälle tolalle.
+
+Arvoisa puhemies, haluaisin tietää, lähettääkö parlamentti tällä viikolla ulkomaailmaan selvän viestin siitä, kuinka tyytymättömiä olemme tämänpäiväiseen päätökseen, jonka mukaan aseiden vientikieltoa Indonesiaan ei jatketa, varsinkin, jos otamme huomioon, että parlamentin valtaenemmistö on aiemmin tukenut aseiden vientikieltoa Indonesiaan? Tämänpäiväinen päätös olla jatkamatta vientikieltoa on erittäin vaarallinen, jos otamme huomioon Indonesian tilanteen. Näin ollen parlamentin olisi lähetettävä tällainen viesti, sillä valtaenemmistö toivoo sitä. On vastuutonta, että EU:n jäsenvaltiot kieltäytyvät jatkamasta aseiden vientikieltoa. Kuten monet ovat kertoneet, tilanne on Indonesiassa äärimmäisen räjähdysaltis. Vaarana todellakin on tuleva sotilasvallankaappaus. Me emme tiedä, mitä tapahtuu. Miksi siis EU:n asevalmistajien olisi tehtävä voittoa viattomien ihmisten kustannuksella?
+
+Joka tapauksessa, tämä kysymys ei ole toistaiseksi torstain ajankohtaiskeskustelun aiheiden joukossa.
+
+Käsittelyjärjestys
+Esityslistalla on seuraavana lopullisen esityslistaluonnoksen käsittely siinä muodossa kuin puheenjohtajakokous torstaina 13. tammikuuta työjärjestyksen 110 artiklan mukaisesti sen laati. Maanantain ja tiistain osalta minulle ei ole ehdotettu muutoksia.
+Keskiviikon osalta:
+Sosialistiryhmä pyytää, että esityslistalle otetaan alunperin esityslistaluonnokseen merkitty komission julkilausuma sen strategisista tavoitteista seuraavien viiden vuoden ajaksi sekä komission hallinnollisesta uudistuksesta.
+Toivoisin, että jäsen Barón Crespo, pyynnön esittäjä, käyttäisi puheenvuoron ja perustelisi pyyntönsä, mutta tietenkin vain, mikäli hän niin haluaa. Sen jälkeen teemme, kuten tapanamme on: kuulemme yhden puheenvuoron puolesta ja yhden vastaan.
+
+Arvoisa puhemies, Prodin johtaman komission koko toimikauden kattavan poliittisen ohjelman esittely oli alun perin Euroopan parlamentin sosiaalidemokraattisen puolueen ryhmän ehdotus, ja se hyväksyttiin yksimielisesti syyskuun puheenjohtajakokouksessa, ja samoin komission puheenjohtaja Prodi antoi sille selvän hyväksyntänsä ja toisti nimityksensä yhteydessä pitämässään puheessa sitoutumistaan siihen.
+Tällä sitoutumisella on merkitystä siinä mielessä, että komissiolla on elimenä perustamissopimusten mukaisesti yksinoikeus tehdä aloitteita, ja siksi komissio määrää sen, millaiseksi parlamentin poliittinen ja lainsäädännöllinen toiminta viiden seuraavan vuoden aikana pohjimmiltaan muotoutuu. Arvoisa puhemies, muistuttaisin lisäksi siitä, että parlamentti antoi edellisellä vaalikaudella kaksi kertaa luottamuslauseen puheenjohtaja Prodille; tällä vaalikaudella luottamuslause annettiin uudelleen heinäkuussa ja sen jälkeen vielä kerran uuden komission astuessa virkaansa, jolloin parlamentti äänesti syyskuussa koko komissiolle annettavasta luottamuslauseesta. Siksi on jo mennyt riittävästi aikaa, jotta komissio on voinut laatia ohjelmansa ja jotta mekin voimme tutustua siihen ja selittää sen kansalaisille. Tässä mielessä palautan mieliin syyskuun 15. päivän päätöslauselman, jossa suositeltiin ehdotuksen esittämistä mahdollisimman pikaisesti.
+Viime viikolla sattuneet asiat jotka saivat alkunsa puheenjohtajakokouksen yhteydessä, jolloin sitä käytettiin vain siihen, että sen ulkopuolella tehdyt päätökset voitaisiin vahvistaa ja sinetöidä ovat johtaneet pulmalliseen tilanteeseen: joko komissio ei pysty esittelemään tätä ohjelmaa (missä tapauksessa komission olisi ilmoitettava se. Komission puheenjohtajan puheiden perusteella komissio pystyykin siihen. Koska komissiota edustaa varapuheenjohtaja de Palacio, luulen, että ennen äänestämistä olisi hyvä tietää komission tilanne eli se, pystyykö komissio esittelemään ohjelman niin kuin sovittiin); tai sitten parlamentti ei pysty käsittelemään tätä ohjelmaa, kuten jotkut näyttävät esittävän. Mielestäni tämä toinen olettamus merkitsisi sitä, että luopuisimme meille parlamenttina kuuluvista velvollisuuksistamme ja lisäksi sitä, että otettaisiin käyttöön omaperäinen teesi ja aivan uudenlainen menetelmä, joka tarkoittaisi sitä, että poliittisille ryhmille annetaan kirjallisessa muodossa tiedoksi komission ohjelmalliset aiheet viikkoa aikaisemmin eikä päivää aikaisemmin, kuten oli sovittu näin varsinkin, jos otetaan huomioon se, että lainsäädäntöohjelmasta keskustellaan helmikuussa, ja näin ollen voimmekin luopua koko keskustelusta, sillä seuraavana päivänä lehdistö ja Internet ovat jo välittäneet tiedon kaikille kansalaisille, eikä parlamentilla ole enää syytä puuttua asiaan.
+Koska ryhmäni on sitä mieltä, että parlamentti on olemassa siksi, että siellä voidaan pohtia asioita, kuunnella ja keskustella, käsityksemme on, että tätä viivästymistä ei voida perustella mitenkään, ja jos komissio pystyy ohjelman esittämään, mielestämme ehdimme hyvin palata alkuperäiseen parlamentin ja komission väliseen sopimukseen ja edetä vastuullisesti kansalaistemme silmissä. Siksi Euroopan parlamentin sosiaalidemokraattisen puolueen ryhmän ehdotus on te myös mainitsitte sen , että keskiviikkona pidetään Prodin komission koko toimikauden ohjelman esittely niin, että tähän ohjelmaan sisältyy myös hallinnollinen uudistussuunnitelma, sillä saatamme joutua paradoksaaliseen tilanteeseen, jos näin ei käy: sen varjolla, että tekstiä ei ole, komission puheenjohtajalta viedään oikeus puhua parlamentille, ja toisaalta pidettäisiin sellainen uudistuksia koskeva keskustelu, jossa parlamentti ei tuntisi etukäteen pohjana olevaa tekstiä. Siksi toivon, että te, arvoisa puhemies, pyytäisitte komissiota ilmoittamaan komission tämänhetkisen kannan, minkä jälkeen toimitettaisiin äänestys.
+(Suosionosoituksia PSE-ryhmältä)
+
+Arvoisa puhemies, hyvät kollegat, olen kaikesta huolimatta hieman hämmästynyt kollega Barón Crespon menettelystä, sillä hän vaatii nyt tämän esityslistan kohdan ottamista keskiviikon istunnon esityslistalle.
+Hyvä kollega Barón Crespo, teillä ei ollut mahdollisuutta olla läsnä viime torstain puheenjohtajakokouksessa. En kritisoi sitä, sillä aina silloin tällöin käy niin, että annamme jonkun toisen edustaa itseämme. Kollega Hänsch edusti teitä siellä. Me keskustelimme tästä asiasta puheenjohtajakokouksessa seikkaperäisesti. Vain teidän ryhmänne puolsi sitä, mitä te nyt ehdotatte. Äänestimme asiasta keskustelun jälkeen. Jokaisella puheenjohtajallahan on yhtä paljon ääniä kuin hänen ryhmässään on jäseniä. Tästä kohdasta toimitettiin siis äänestys. Sen tulos oli muistaakseni seuraavanlainen: 422-180 muutamien harvojen pidättäytyessä äänestämästä. Se tarkoittaa, että kaikki ryhmät sitoutumattomia jäseniä lukuun ottamatta - mutta hehän eivät olekaan mitään ryhmiä - olivat yksimielisiä ja vain teidän ryhmänne kannatti sellaista menettelyä, jota te olette täällä ehdottanut. Kaikki muut olivat eri mieltä. Tämä oli puheenjohtajakokouksen päätös.
+Nyt haluaisin sanoa jotakin itse asiasta. Me luotamme komissioon ja Romano Prodiin, ja ryhmämme hyvin suuri enemmistö antoi vaikean prosessin jälkeen, kuten me kaikki tiedämme, luottamuslauseen Romano Prodille ja komissiolle. Me olemme kuitenkin myös sitä mieltä, että meidän on keskusteltava tästä komission strategiasta asianmukaisessa menettelyssä ei pelkästään komission täällä Euroopan parlamentissa esittämän suullisen tiedonannon pohjalta vaan myös sen asiakirjan pohjalta, josta on päätetty komissiossa ja jossa selostetaan tätä seuraavien viiden vuoden ohjelmaa. Sellaista asiakirjaa ei ole olemassa!
+
+Komissio esittää vuoden 2000 ohjelman helmikuussa. Me olemme sanoneet, hyvä on, jos komissio ei halua tehdä vuoden 2000 ohjelmaa vielä tammikuussa, me teemme sen sitten helmikuussa. Olemme hyväksyneet sen. Mehän emme halua sinänsä mitään riitaa komission kanssa, vaan olemme sitä mieltä, että komission ja parlamentin on kuljettava yhteistä tietä, jos se nimittäin on mahdollista. Me parlamenttina toimimme kuitenkin myös komission valvojana. Eikä meidän tarvitse olla samaa mieltä kaikesta, mitä komissio esittää.
+Haluaisin, että voimme valmistautua viisivuotisohjelmasta käytävään keskusteluun poliittisissa ryhmissä järkevällä tavalla. Se ei ole mahdollista, jos täällä kuullaan julkilausuma tietämättä lainkaan, mitä se sisältää. Suosittelemme siksi - ja minun vaikutelmani on, että komissio on myös vastaanottavainen tälle ajatukselle -, että keskustelemme helmikuussa komission pitkäaikaisesta vuoteen 2005 ulottuvasta ohjelmasta - toivon komission pääsevän siihen mennessä yhteisymmärrykseen myös ohjelmasta, jonka se esittää meille - ja että käymme samaan aikaan helmikuussa myös keskustelua komission vuoden 2000 lainsäädäntöohjelmasta. Tämä on siis myös asiayhteys, jonka takia on järkevää keskustella molemmista ohjelmista yhdessä. Ryhmäni hylkää siksi ehdottomasti sosialistiryhmän ehdotuksen!
+(Suosionosoituksia PPE-DE-ryhmältä)
+
+. (ES) Arvoisa puhemies, haluan tehdä hyvin selväksi, että komissio pitää ilman muuta parlamentin päätöksiä mahdollisimman suuressa arvossa, ja sen myötä arvostaa myös esityslistaa. Siksi kunnioitamme sitä, mikä on tässä mielessä parlamentin päätettävissä.
+Haluaisin myös tehdä selväksi, että puheenjohtaja Prodi lupasi parlamentille, että tämä uusi keskustelu otetaan esityslistalle, mistä jäsen Barón Crespo muistutti, ja että tämä uusi keskustelu käydään komission lainsäädäntöohjelmasta käytävän vuosikeskustelun lisäksi ja siinä käsitellään seuraavan viisivuotiskauden, eli tämän toimikauden, suuria toimintalinjoja.
+Arvoisa puhemies, haluaisin sanoa, että tämä keskustelu poikkeaa syyskuussa tehdyllä sopimuksella komission lainsäädäntöohjelman vuosittaisesta esittelystä. Ja haluaisin sanoa, arvoisa puhemies, että komission puolesta olemme valmistautuneet ja valmiita käymään tämän keskustelun, kun se sopii muille, ja että olemme valmiita käymään sen tällä viikolla, kuten alun perin oli sovittu, ja voimme lähteä myös siitä, että se edeltävänä päivänä esitellään parlamentin ryhmille.
+Arvoisa puhemies, niinpä haluan toistaa, että omasta puolestamme olemme keskustelleet seuraavan viisivuotiskauden toimintasuunnitelmasta ja että olemme valmiit, kun parlamentti niin päättää tällä samalla viikolla, jos se on parlamentin päätös esittelemään parlamentille tämän viisivuotisohjelman ja ensi kuussa ohjelman vuodelle 2000, kuten oli nimenomaan sovittu.
+
+Ehdotan, että pidämme äänestyksen sosialistiryhmän pyynnöstä, jolla pyritään merkitsemään esityslistalle uudelleen komission julkilausuma komission strategisista tavoitteista.
+(Parlamentti hylkäsi pyynnön.) Puhemies. Edelleen keskiviikon istunnon osalta minulla on toinenkin ehdotus, joka liittyy pääomaveroa koskevaan suulliseen kysymykseen. PPE-DE-ryhmä pyytää tämän kohdan poistamista esityslistalta.
+Haluaako joku kollegoista käyttää puheenvuoron ryhmän puolesta ja perustella tämän pyynnön?
+
+Arvoisa puhemies, koska kuulen sosialistiryhmän keskuudesta hieman naurua - minulle sanottiin, että myös monet sosialistiryhmän jäsenistä haluavat mielellään poistaa tämän kohdan esityslistalta, koska puheenjohtajakokouksen äänestyksessä ei ollut käytettävissä sosialistiryhmän asiasta vastaavien jäsenten työryhmän äänestystulosta. En tiedä, pitääkö tämä tieto paikkansa, mutta me PPE-DE-ryhmänä olisimme joka tapauksessa kiitollisia, jos tämä kohta poistettaisiin esityslistalta, koska parlamentti on käsitellyt tätä asiaa jo useita kertoja. Tällaista veroa vastaan on tehty myös päätöksiä. Ryhmäni pyytää siksi tämän kohdan poistamista esityslistalta.
+
+Kiitos, jäsen Poettering.
+Nyt kuuntelemme jäsen Wurtzia, joka puhuu tätä pyyntöä vastaan.
+
+Arvoisa puhemies, haluaisin ensiksi painottaa jäsen Poetteringin epäloogisuutta. Äsken hän läksytti sosialistiryhmää, koska ryhmä olisi perunut puheenjohtajakokouksessa tehdyn äärimmäisen selkeän päätöksen. Nyt hän toimii itse samoin. Keskustelimme ja olimme asiasta yksimielisiä PPE-ryhmää ja liberaaliryhmää lukuun ottamatta, ja silloin jopa huomautin te, hyvät puheenjohtajakollegani varmaan muistatte sen , että kyse ei ole siitä, oletteko te ns. Tobin-veroa vastaan vai ette, vaan siitä, rohkenetteko ymmärtää, mitä mieltä komissio ja neuvosto siitä ovat. Tämä ei ole liikaa vaadittu. Näin ollen pidän kiinni ehdotuksesta, jonka mukaan säilytämme tämän komissiolle ja neuvostolle esitettävän suullisen kysymyksen, jotta saamme vihdoin tietää näiden kahden tahon kannan tästä suhteellisen vaatimattomasta ehdotuksesta, joka kuitenkin merkitsisi tärkeää signaalia yleisen mielipiteen suuntaan varsinkin niiden tunteiden jälkeen, joita Seattlen huippukokouksen epäonnistuminen herätti.
+
+ Äänestämme PPE-DE-ryhmän pyynnöstä, jolla pyritään säilyttämään esityslistalla pääomaveroa koskeva suullinen kysymys.
+(Parlamentti hylkäsi pyynnön: 164 puolesta, 166 vastaan ja 7 tyhjää.)
+
+Arvoisa puhemies, haluaisin kiittää jäsen Poetteringia tästä mainosiskusta, jonka hän juuri järjesti kyseiselle keskustelulle. Kiitos.
+
+Arvoisa puhemies, onko ääneni otettu huomioon, vaikka se ei sähköisesti mennytkään läpi, sillä minulla ei ole äänestyskorttia? Äänestin puolesta.
+
+Jos lisäämmekin molempien ilmoittautuneiden kollegojen puheet, saamme oikeastaan tulokseksi...
+
+Arvoisa puhemies, äänestystuloshan on julistettu. Muutoksia ei voi tehdä.
+
+ Hyvät kollegat, toistan vielä kerran, että jokaisella on oltava äänestyskorttinsa maanantaisin. Meillä on siinä asiassa näköjään ongelmia. Näin ollen minun on tehtävä päätös.
+Myös minä unohdin äänestyskorttini ja olisin äänestänyt vastaan. Katson siis, että suullinen kysymys säilytetään esityslistalla.
+Tämä on viimeinen kerta, kun otamme huomioon äänestyskorttinsa unohtaneiden jäsenten äänet. Tulkoon tämä varsin selväksi ja tehtäköön se tiettäväksi.
+(Suosionosoituksia)
+Kyllä, suullinen kysymys säilyy esityslistalla, ja kyllä, puhemiehelläkin on oikeus äänestää, kuten hänellä on myös oikeus unohtaa äänestyskorttinsa.
+Jatkamme muiden esityslistalle ehdotettujen muutosten käsittelyä.
+
+Arvoisa puhemies, aiemmassa äänestyksessä ja aion noudattaa sitä, mitä asiasta sanotte , joka koski komission strategista suunnitelmaa, ilmoitin haluavani puhua ennen äänestystä ryhmäni puolesta. Näin ei käynyt. Olisin kiitollinen, jos saisin mahdollisuuden antaa äänestysselityksen ryhmäni puolesta sen jälkeen, kun tämä asia on saatu käsiteltyä. Tämä on tärkeä asia. Olisi parlamentille eduksi, että jäsenet voisivat ilmaista omien poliittisten analyysiensa valossa, miten he suhtautuvat siihen, mitä olemme juuri saaneet aikaiseksi.
+
+Arvoisa puhemies, en halua avata keskustelua uudelleen, mutta myös minä pyysin puheenvuoroa ottaakseni kantaa Barón Crespon pyyntöön. Te ette pyytänyt myöskään minua puhumaan. Pahoittelen sitä, mutta äänestys on toimitettu ja päätös tehty, joten antakaamme asian olla.
+
+ Olen pahoillani, jäsen Hänsch ja jäsen Cox, en nähnyt, että pyysitte puheenvuoroa. Näin ollen uskon, että kannat ovat varsin hyvin selvillä ja että ne kirjataan pöytäkirjaan. Kun huomenna hyväksymme tämänpäiväisen istunnon pöytäkirjan, ne kollegat, joiden mielestä jotakin kantaa ei ole selitetty riittävän hyvin, voivat pyytää muutoksia. Minusta tämä on hyvä tapa. Tietenkin huomisen istunnon pöytäkirjassa otetaan kaikki täydentävät selitykset huomioon. Uskoakseni tämä on parempi tapa kuin se, että ryhtyisimme aikaa vieviin äänestysselityksiin nyt. Jäsen Cox ja jäsen Hänsch, sopiiko tämä teille?
+
+Arvoisa puhemies, mikäli pöytäkirjaan on kirjattu oikein, miten ryhmäni äänesti, en aio enkä voikaan vastustaa sitä. Jos päätöksenne on, että en voi antaa äänestysselitystä, hyväksyn sen, mutta tietyin varauksin.
+
+ Aiomme siis laatia pöytäkirjan hyvin tarkasti. Niinhän me oikeastaan teemme aina. Jos kannat eivät tule pöytäkirjasta kunnolla ilmi, voimme tarvittaessa korjata asian.
+(Käsittelyjärjestys vahvistettiin näin muutettuna.)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/fr.test b/tika-core/src/test/resources/org/apache/tika/language/fr.test
new file mode 100644
index 0000000000..05e5e35569
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/fr.test
@@ -0,0 +1,105 @@
+Reprise de la session
+Je déclare reprise la session du Parlement européen qui avait été interrompue le vendredi 17 décembre dernier et je vous renouvelle tous mes vux en espérant que vous avez passé de bonnes vacances.
+Comme vous avez pu le constater, le grand "bogue de l'an 2000" ne s'est pas produit. En revanche, les citoyens d'un certain nombre de nos pays ont été victimes de catastrophes naturelles qui ont vraiment été terribles. Vous avez souhaité un débat à ce sujet dans les prochains jours, au cours de cette période de session. En attendant, je souhaiterais, comme un certain nombre de collègues me l'ont demandé, que nous observions une minute de silence pour toutes les victimes, des tempêtes notamment, dans les différents pays de l'Union européenne qui ont été touchés. Je vous invite à vous lever pour cette minute de silence.
+(Le Parlement, debout, observe une minute de silence)
+
+Madame la Présidente, c'est une motion de procédure. Vous avez probablement appris par la presse et par la télévision que plusieurs attentats à la bombe et crimes ont été perpétrés au Sri Lanka. L'une des personnes qui vient d'être assassinée au Sri Lanka est M. Kumar Ponnambalam, qui avait rendu visite au Parlement européen il y a quelques mois à peine. Ne pensez-vous pas, Madame la Présidente, qu'il conviendrait d'écrire une lettre au président du Sri Lanka pour lui communiquer que le Parlement déplore les morts violentes, dont celle de M. Ponnambalam, et pour l'inviter instamment à faire tout ce qui est en son pouvoir pour chercher une réconciliation pacifique et mettre un terme à cette situation particulièrement difficile.
+
+Oui, Monsieur Evans, je pense qu'une initiative dans le sens que vous venez de suggérer serait tout à fait appropriée. Si l'Assemblée en est d'accord, je ferai comme M. Evans l'a suggéré.
+
+Madame la Présidente, c'est une motion de procédure. Je voudrais vous demander un conseil au sujet de l'article 143, qui concerne l'irrecevabilité. Ma question porte sur un sujet qui est à l'ordre du jour du jeudi et que je soulèverai donc une nouvelle fois.
+Le paragraphe 6 du rapport Cunha sur les programmes d'orientation pluriannuels, qui sera soumis au Parlement ce jeudi, propose d'introduire des sanctions applicables aux pays qui ne respectent pas les objectifs annuels de réduction de leur flotte. Il précise que cela devrait être fait malgré le principe de stabilité relative. À mon sens, le principe de stabilité relative est un principe juridique fondamental de la politique commune de la pêche et toute proposition le bouleversant serait juridiquement irrecevable. Je voudrais savoir si l'on peut avancer une objection de ce type à ce qui n'est qu'un rapport, pas une proposition législative, et si je suis habilité à le faire ce jeudi.
+
+C'est exactement à ce moment-là que vous pourrez, en effet, si vous le souhaitez, soulever cette question, c'est-à-dire jeudi avant le début de la présentation du rapport.
+
+Madame la Présidente, alors que se déroule la première session de l'année du Parlement européen, l'exécution d'un condamné à mort au Texas aux États-Unis, un jeune homme de 34 ans appelé Hicks, a été fixée, malheureusement, à jeudi prochain.
+À la demande d'un député français, Monsieur Zimeray, une pétition a déjà été introduite ; elle a récolté de nombreuses signatures dont la mienne. Cependant, je vous demande, conformément à l'orientation désormais constamment exprimée par le Parlement européen et toute la Communauté européenne, d'intervenir auprès du président et du gouverneur du Texas, Monsieur Bush, en faisant jouer le prestige de votre mandat et de l'Institution que vous représentez, car c'est Monsieur Bush qui a le pouvoir de suspendre la condamnation à mort et de gracier le condamné.
+Et tout ceci dans le respect des principes que nous avons toujours soutenus.
+
+Merci, Monsieur Segni, je le ferai bien volontiers. C'est en effet tout à fait dans la ligne des positions que notre Parlement a toujours adoptées.
+
+Madame la Présidente, je voudrais attirer votre attention sur un cas dont s'est régulièrement occupé le Parlement. Il s'agit du cas d'Alexandre Nikitin. Nous nous réjouissons tous, dans cette enceinte, que le tribunal ait prononcé sa libération et ait clairement établi qu'en Russie aussi, l'accès aux informations environnementales était un droit constitutionnel. Cependant, il se fait qu'il semblerait être à nouveau mis en accusation, le ministère public ayant interjeté appel. Nous savons, et nous l'avons d'ailleurs établi dans de très nombreuses résolutions - y compris lors de la dernière période de session de l'année dernière -, que ce cas n'est pas seulement de nature juridique et qu'il est faux d'accuser Alexandre Nikitin d'activité criminelle et de trahison car nous sommes concernés par ses résultats et nous en profitons. Ces résultats forment la base des programmes européens de protection de la mer de Barents et c'est pourquoi je vous prie d'examiner un projet de lettre vous dépeignant les faits essentiels de cette affaire et de communiquer à la Russie la position qui découle des décisions du Parlement.
+
+Oui, Madame Schroedter, j'examinerai bien volontiers les faits relatifs à cette question lorsque j'aurai reçu votre lettre.
+
+Madame la Présidente, je voudrais tout d'abord vous féliciter pour avoir tenu parole car en effet, en cette première période de session, en cette nouvelle année, le nombre de chaînes de télévision a réellement été augmenté de manière significative dans nos locaux. Toutefois, Madame la Présidente, ce que j'avais demandé n'a pas été réalisé. Il y a bien deux chaînes finnoises et une chaîne portugaise, mais il n'y a toujours aucune chaîne néerlandaise. Pourtant je vous avais demandé une chaîne néerlandaise, car les Néerlandais aussi désirent pouvoir suivre les actualités chaque mois lorsqu'ils sont envoyés en cette terre d'exil. Je vous demande donc à nouveau de faire le nécessaire pour que nous puissions disposer d'une chaîne néerlandaise.
+
+Madame Plooij-van Gorsel, je peux vous dire que cette question est à l'ordre du jour de la réunion des questeurs de mercredi. Elle sera, je l'espère, examinée dans un esprit positif.
+
+Madame la Présidente, comment se fait-il que le Parlement ne se conforme pas à la réglementation en matière de santé et de sécurité qu'il vote ? Comment se fait-il qu'aucun test de qualité de l'air n'ait été réalisé dans ce bâtiment depuis notre élection ? Comment se fait-il que le comité de santé et d'hygiène ne se soit plus réuni depuis 1998 ? Comment se fait-il que nous n'ayons jamais fait d'exercice d'évacuation dans les bâtiments du Parlement de Bruxelles et de Strasbourg ? Comment se fait-il qu'il n'y ait pas de consignes en cas d'incendie ? Comment se fait-il que les escaliers n'aient pas été améliorés depuis mon accident ? Comment se fait-il que l'on ne respecte pas les zones non fumeurs ? Nous votons des réglementations et nous ne nous y conformons même pas. C'est scandaleux.
+
+Madame Lynne, vous avez parfaitement raison et je vais vérifier si tout cela n' a effectivement pas été fait. Je vais soumettre également le problème au Collège des questeurs et je suis certaine que nos questeurs auront à cur de faire en sorte que nous respections la réglementation qu' en effet nous votons.
+
+Madame la Présidente, Mme Díez González et moi-même avions présenté quelques questions sur certaines opinions exprimées par la vice-présidente, Mme de Palacio, et publiées dans un journal espagnol. Les services compétents ne les ont pas inclues à l'ordre du jour, avançant que des réponses avaient déjà été apportées lors d'une précédente session.
+Je demande que cette décision soit reconsidérée car ce n'est pas le cas. Les questions auxquelles on a répondu précédemment se rapportaient à l'intervention de Mme de Palacio dans un dossier précis, et non aux déclarations parues dans le journal ABC du 18 novembre dernier.
+
+ Cher collègue nous allons vérifier tout cela. Je vous avouerai que, pour le moment, les choses me semblent un petit peu confuses. Donc, nous allons revoir cela très sérieusement pour que tout soit bien en ordre.
+
+Madame la Présidente, je voudrais savoir si cette semaine, le Parlement va envoyer un message clair exprimant son mécontentement quant à la décision prise aujourd'hui de refuser de renouveler l'embargo sur les armes à destination de l'Indonésie, alors que par le passé, le Parlement a souscrit à une très large majorité à l'embargo sur les armes à destination de l'Indonésie. La décision d'aujourd'hui de ne pas renouveler l'embargo est extrêmement dangereuse, compte tenu de la situation sur place. Le Parlement devrait dès lors envoyer un message en ce sens, étant donné qu'une grande majorité des députés le souhaite. En refusant de prolonger l'embargo, les États membres font preuve d'irresponsabilité. D'aucuns l'ont dit, la situation en Indonésie est extrêmement explosive. Il y a en réalité un risque de coup d'État. Nous ne savons pas ce qui se passe. Pourquoi donc les producteurs d'armes de l'UE devraient-ils s'enrichir sur le dos de personnes innocentes ?
+
+En tout cas, cette question ne figure pas pour l' instant parmi les demandes d' urgence pour jeudi prochain.
+
+Ordre des travaux
+L' ordre du jour appelle l' examen du projet définitif d' ordre du jour tel qu' il a été établi par la Conférence des présidents, le jeudi 13 janvier, conformément à l' article 110 du règlement. S' agissant de lundi et mardi, je n' ai pas de modifications.
+En ce qui concerne le mercredi :
+Le groupe socialiste demande d' inclure une déclaration de la Commission sur ses objectifs stratégiques pour les cinq ans à venir, ainsi que sur la réforme administrative de la Commission.
+Je souhaiterais que M. Barón Crespo, auteur de la demande, intervienne pour la justifier, s' il le souhaite bien sûr. Puis , nous ferons comme d' habitude : nous entendrons un orateur pour et un orateur contre.
+
+Madame la Présidente, la présentation du programme politique de la Commission Prodi pour l'ensemble de la législature était au départ une proposition du groupe du parti des socialistes européens qui a obtenu l'unanimité lors de la Conférence des présidents en septembre, mais aussi l'approbation explicite du président Prodi, qui a réitéré son engagement dans son discours d'investiture.
+Cet engagement est important dans la mesure où la Commission est un organisme qui détient, conformément aux Traités, le monopole de l'initiative et qui, par conséquent, décide pour l'essentiel quelle sera l'activité politique et législative de ce Parlement au cours des cinq prochaines années. Je vous rappelle en outre, Madame la Présidente, que ce Parlement a voté par deux fois la confiance au président Prodi lors de la précédente législature ; au cours de cette législature, il l'a de nouveau votée en juillet et, ensuite, avec l'entrée en fonction de la nouvelle Commission, il a redonné sa confiance en septembre à l'ensemble de la Commission. Il s'est donc écoulé suffisamment de temps pour que la Commission prépare son programme et pour que nous puissions en prendre connaissance et l'expliquer aux citoyens. En ce sens, je vous rappelle la résolution du 15 septembre, laquelle recommandait que la proposition soit présentée dans les plus brefs délais.
+Les événements qui se sont produits la semaine dernière qui sont nés en marge de la Conférence des présidents et se servent d'elle dans le seul but de corroborer et de ratifier des décisions prises en dehors de celle-ci créent un dilemme : ou bien la Commission n'est pas en mesure de présenter ce programme ; (dans ce cas, il conviendrait qu'elle tire les choses au clair. Aux dires de son Président, la Commission serait en mesure de le faire. Étant donné que la Commission est représentée par la vice-présidente, Mme de Palacio, je crois qu'avant de voter, il serait bon de connaître la position de la Commission en ce qui concerne ses disponibilités pour présenter le programme, tel que cela avait été convenu) ou bien le Parlement n'est pas en mesure d'examiner ce programme, comme certains semblent le prétendre. À mon avis, cette deuxième hypothèse signifierait le rejet de nos responsabilités en tant que Parlement, outre l'introduction d'une thèse originale, d'une méthode inconnue qui consiste à communiquer aux groupes politiques le discours du programme de la Commission par écrit une semaine avant et non le jour avant, comme il avait été convenu , en tenant compte du fait que le programme législatif serait discuté en février, de telle sorte que nous pourrions nous passer du débat, car le lendemain, la presse et Internet l'auraient porté à la connaissance de tous les citoyens et le Parlement n'aurait plus de raison de s'en occuper.
+Mon groupe estimant qu'un Parlement est là pour écouter, pour débattre et pour réfléchir, nous pensons qu'aucune raison ne justifie cet ajournement et nous croyons que si la Commission est en mesure de le présenter, nous avons parfaitement le temps pour rétablir l'accord original entre le Parlement et la Commission et d'agir de manière responsable vis-à-vis de nos concitoyennes et concitoyens. Par conséquent, la proposition du groupe du parti des socialistes européens que vous avez mentionnée est de maintenir à mercredi la présentation du programme de législature de la Commission Prodi, en incluant également dans le programme le projet de réforme administrative car, si ce n'est pas fait, nous risquons de nous retrouver dans une position paradoxale : sous prétexte qu'il n'y a pas de texte, on refuse d'une part le droit du président de la Commission à s'exprimer dans ce Parlement et, d'autre part, la tenue d'un débat sur une réforme dont le Parlement ne connaît pas les textes. Je vous prie dès lors, Madame la Présidente, de demander à la Commission de s'exprimer maintenant et que l'on procède ensuite au vote.
+(Applaudissements du groupe PSE)
+
+Madame la Présidente, chers collègues, je suis tout de même quelque peu surpris de l'attitude de notre collègue Barón Crespo qui demande à présent que ce point de l'ordre du jour soit placé à l'ordre du jour de la séance de mercredi.
+Monsieur Barón Crespo, vous n'avez pu être présent à la Conférence des présidents de jeudi dernier. Je ne le critique pas : il peut arriver qu'on se fasse représenter. M. Hänsch vous y a représenté. Nous avons mené un débat en profondeur au cours de cette Conférence des présidents. Seul votre groupe a défendu la position que vous venez d'exposer. Nous avons ensuite procédé à un vote, chaque président ou présidente disposant d'un nombre de voix égal au nombre de ses membres. Il y a donc eu un vote à ce stade de la réunion et, de ce que je me souviens, ce vote a donné le résultat suivant : 422 voix contre 180 et quelques rares abstentions. Ce qui signifie qu'à l'exception des non-inscrits - qui ne constituent cependant pas un groupe -, seul votre groupe était d'avis de procéder de la manière que vous venez de proposer. Tous les autres étaient d'un avis différent. Telle était la décision prise.
+À présent, je voudrais dire quelques mots sur l'affaire en tant que telle. Nous avons confiance en la Commission, en Romano Prodi, et, au terme d'un processus difficile connu de chacun, la toute grande majorité de notre groupe a témoigné sa confiance à Romano Prodi et à sa Commission. Mais nous pensons également devoir tenir un débat sur la stratégie de la Commission dans le cadre d'une procédure ordonnée, ne reposant pas seulement sur une déclaration orale faite au sein du Parlement européen mais sur un document adopté par la Commission et décrivant ce programme pour les cinq ans à venir. Un tel document n'existe pas.
+La Commission présentera le programme pour l'an 2000 en février. Nous avons marqué notre accord et dit que si la Commission ne présentait pas ce programme en janvier, nous le ferions en février. Nous avons marqué notre accord. Nous ne voulons pas d'un conflit avec la Commission et pensons que, dans la mesure du possible, la Commission et le Parlement doivent avancer de concert. Toutefois, le Parlement est également le contrôleur de la Commission. Et tout ce qui provient de la Commission ne doit pas avoir notre assentiment.
+Je voudrais que les groupes puissent procéder à la préparation judicieuse d'un débat sur ce programme pour les cinq ans à venir. On ne peut s'y préparer si l'on entend une déclaration dans cette enceinte sans même connaître le contenu d'une telle déclaration. C'est pourquoi nous recommandons - et j'ai l'impression que la Commission se range également à cette idée - de mener le débat sur le programme de la Commission jusqu'à 2005 au cours du mois de février - j'espère que d'ici là, la Commission se sera accordée sur un programme qu'elle nous soumettra - et de mener au cours du même mois de février le débat sur le programme législatif de la Commission pour l'an 2000. La logique nous invite donc également à mener de concert les débats sur ces deux programmes. C'est pourquoi mon groupe rejette résolument la proposition du groupe socialiste.
+(Applaudissements du groupe PPE-DE)
+
+Madame la Présidente, avant toute chose, je voudrais qu'il soit bien clair que la Commission a le plus grand respect pour les décisions de ce Parlement et, notamment, pour celle qui concerne la fixation de l'ordre du jour. Par conséquent, nous respectons les décisions que pourrait prendre le Parlement dans ce sens.
+Mais je voudrais également qu'il soit bien clair que le président Prodi s'est engagé avec le Parlement à instaurer un nouveau débat, comme l'a rappelé M. Barón, qui vient s'ajouter au débat annuel sur le programme législatif de la Commission, sur les grandes lignes d'action pour la prochaine période de cinq ans, c'est-à-dire pour cette législature.
+Je voudrais dire, Madame la Présidente, que, dans l'accord auquel on est parvenu au mois de septembre, ce débat diffère de la présentation annuelle du programme législatif de la Commission. J'ajouterais, Madame la Présidente, que, du côté de la Commission, nous sommes prêts et disposés à organiser ce débat quand cela vous conviendra, que nous étions prêts à le développer cette semaine, comme cela avait été décidé au départ, en se basant sur le fait qu'il était présenté la veille dans un discours aux groupes parlementaires.
+Je voudrais donc répéter, Madame la Présidente, que, pour notre part, nous avons discuté du programme d'action pour les cinq prochaines années et que nous sommes prêts à venir présenter le programme pour les cinq prochaines années quand le Parlement le décidera y compris cette semaine, si telle est sa décision et le programme pour l'an 2000, le mois prochain, ce sur quoi nous nous étions parfaitement mis d'accord.
+
+Je propose que nous votions sur la demande du groupe socialiste visant à réinscrire la déclaration de la Commission sur ses objectifs stratégiques.
+(Le Parlement rejette la demande) La Présidente. Toujours au sujet de la journée du mercredi, j'ai une autre proposition concernant la question orale sur l'impôt sur le capital. Le groupe PPEDE demande de retirer ce point de l'ordre du jour.
+Y a-t-il un collègue pour prendre la parole au nom du groupe et justifier cette demande ?
+
+Madame la Présidente, pour répondre aux rires que j'entends parmi les socialistes, on m'a dit que de larges pans du groupe socialiste aimeraient également supprimer ce point de l'ordre du jour car lors du scrutin au sein de la Conférence des présidents, les collègues responsables du groupe socialiste ne disposaient pas du vote du groupe de travail. Je ne sais si cette information est correcte mais quoi qu'il en soit, le groupe PPE-DE vous saurait gré de supprimer ce point de l'ordre du jour car le Parlement s'est en effet maintes fois saisi de cette question. Des décisions existent qui s'opposent à une telle taxe. C'est pourquoi mon groupe demande que ce point soit retiré de l'ordre du jour.
+
+Merci Monsieur Poettering.
+Nous entendons à présent M. Wurtz, qui s' exprime contre cette demande.
+
+Madame la Présidente, je voudrais d' abord souligner le manque de logique de M. Poettering. A l' instant, il vient de faire la leçon au groupe socialiste parce que celui-ci revient sur une décision qui a été prise de façon extrêmement nette en Conférence des présidents. Or, il fait la même chose. Nous avons discuté, nous étions unanimes sauf le groupe PPE et le groupe libéral et j' avais même fait remarquer, vous vous en souviendrez mes chers confrères présidents, que la question n' est pas de savoir si vous êtes pour ou contre la taxe Tobin, mais de savoir si vous osez entendre ce que la Commission et le Conseil en pensent. Ce n' est pas demander beaucoup. Donc, je réitère la proposition de maintenir cette question orale à la Commission et au Conseil pour connaître une fois pour toutes la position de ces deux instances par rapport à cette proposition relativement modeste, mais qui donnerait un signal important à l' opinion, en particulier après l' émotion suscitée par l' échec de la conférence de Seattle.
+
+Nous allons voter sur la demande du groupe PPE-DE visant à retirer la question orale concernant l' impôt sur le capital de l' ordre du jour.
+(Le Parlement rejette la demande avec 164 voix pour, 166 voix contre et 7 abstentions)
+
+Madame la Présidente, je voudrais remercier M. Poettering pour le coup de publicité qu' il vient de donner à ce débat. Merci.
+
+Madame la Présidente, a-t-on comptabilisé mon vote, qui n'a pu être réalisé électroniquement parce que je n'ai pas ma carte ? J'ai voté "pour".
+
+Effectivement, si on ajoute les deux collègues qui se sont manifestés, nous obtenons comme résultat....
+
+Madame la Présidente, la présidence a proclamé le résultat du vote. Les modifications n'ont pas lieu d'être.
+
+Mes chers collègues, encore une fois, il faut que chacun ait bien sa carte le lundi. On voit que nous avons là un problème. Cela étant, je dois prendre une décision.
+J' ai aussi oublié ma carte et j' aurais voté contre. Je considère donc que la question orale reste maintenue à l' ordre du jour.
+C' est la dernière fois que nous tiendrons compte des cartes oubliées. Que ceci soit bien clair et qu' on se le dise.
+(Applaudissements)
+Oui, la question orale est maintenue à l' ordre du jour et oui, la présidente a le droit de voter, comme elle a aussi le droit d' oublier sa carte.
+Nous poursuivons avec les autres modifications de l' ordre du jour.
+
+Madame la Présidente, lors du dernier vote et je m'en remets à votre décision sur ce sujet - sur la question du plan stratégique de la Commission, j'ai signalé que je demandais la parole avant le vote au nom de mon groupe. Mais ma demande n'a pas été satisfaite. Je vous saurai gré, à l'issue de ce point de l'ordre du jour, de me permettre de fournir un explication de vote au nom de mon groupe. C'est important. Il serait utile de consigner au procès-verbal du Parlement la manière dont les gens perçoivent ce que nous venons de faire, à la lumière de leur propre analyse politique.
+
+Madame la Présidente, je ne veux pas relancer le débat mais j'avais également demandé la parole pour m'exprimer quant à la demande de M. Barón Crespo. Moi non plus, vous ne m'avez pas donné la parole. Je le déplore mais le vote a été effectué, la décision est tombée et nous devrions donc en rester là.
+
+Je suis désolée, Monsieur Hänsch et Monsieur Cox, je n'avais pas vu que vous demandiez la parole. Cela étant, je crois que les positions sont bien claires et elles seront consignées au procès-verbal. Lorsque nous adopterons demain le procès-verbal de la séance d'aujourd'hui, les collègues qui estimeront que les positions n'ont pas été suffisamment bien expliquées pourront demander des modifications. Il me semble que c'est une bonne formule. Bien entendu, le procès-verbal de la réunion de demain tiendra compte de toutes les explications complémentaires. Je crois que c'est une meilleure formule que de procéder maintenant à des explications de vote qui nous entraîneraient très loin. Monsieur Cox, Monsieur Hänsch, est-ce que cela vous convient ?
+
+Madame la Présidente, si le procès-verbal reflète correctement le vote de mon groupe, je n'ai et n'aurai aucune objection à formuler. Si votre décision est que je ne puis pas donner d'explication de vote, je l'accepte, mais avec certaines réserves.
+
+Nous ferons donc très attention à la rédaction du procès-verbal. Nous le faisons d'ailleurs toujours. S'il ne reflète pas bien les positions, nous pourrons éventuellement le corriger.
+(Le Parlement adopte l'ordre des travaux ainsi modifié)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/it.test b/tika-core/src/test/resources/org/apache/tika/language/it.test
new file mode 100644
index 0000000000..15813fb714
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/it.test
@@ -0,0 +1,109 @@
+Ripresa della sessione
+Dichiaro ripresa la sessione del Parlamento europeo, interrotta venerdì 17 dicembre e rinnovo a tutti i miei migliori auguri nella speranza che abbiate trascorso delle buone vacanze.
+Come avrete avuto modo di constatare il grande "baco del millennio" non si è materializzato. Invece, i cittadini di alcuni nostri paesi sono stati colpiti da catastrofi naturali di proporzioni davvero terribili. Avete chiesto che si tenesse una discussione su tale tema nei prossimi giorni, nel corso della presente tornata. Nel frattempo è mio desiderio, come del resto mi è stato chiesto da alcuni colleghi, osservare un minuto di silenzio in memoria di tutte le vittime delle tempeste che si sono abbattute sui diversi paesi dell' Unione europea. Vi invito pertanto ad alzarvi in piedi per osservare appunto un minuto di silenzio.
+(Il Parlamento osserva un minuto di silenzio)
+
+Signora Presidente, intervengo per una mozione d'ordine. Come avrà letto sui giornali o sentito alla televisione, in Sri Lanka si sono verificati numerosi assassinii ed esplosioni di ordigni. Una delle vittime più recenti è stato Kumar Ponnambalam, che qualche mese fa era venuto in visita qui al Parlamento europeo. Signora Presidente, sarebbe opportuno che inviasse una lettera alla Presidente del Sri Lanka per esprimere le condoglianze del Parlamento per questa e le altre morti violente verificatesi in Sri Lanka e per invitarla a fare quanto in suo potere al fine di giungere a una riconciliazione pacifica in questa situazione assai difficile.
+
+Sì, onorevole Evans, ritengo che un' iniziativa del tipo che lei propone sia assolutamente opportuna. Se l' Assemblea è d' accordo seguirò il suggerimento dell' onorevole Evans.
+
+Signora Presidente, un richiamo al Regolamento. Gradirei avere il suo parere riguardo all'articolo 143 sull'inammissibilità. La mia domanda si ricollega a un tema all'ordine del giorno di giovedì e che formulerò di nuovo al momento opportuno.
+La relazione Cunha sui programmi di orientamento pluriennali è iscritta all'ordine del giorno della Plenaria di giovedì e al paragrafo 6 contiene una proposta volta a introdurre una sorta di sanzione a carico delle quote di quei paesi che non riescono a raggiungere i loro obiettivi di riduzione annuali delle flotte, nonostante il principio della stabilità relativa. Credo che tale principio sia un principio giuridico fondamentale della politica comune della pesca e qualsiasi proposta volta a sovvertirlo sarebbe giuridicamente inammissibile Vorrei sapere se è possibile sollevare un'obiezione di questo tipo nel contesto di una semplice relazione, e non di una proposta legislativa, e se rientra nelle mie competenze sollevare una tale obiezione giovedì prossimo.
+
+E' appunto in quell' occasione che, se lo desidera, avrà modo di sollevare la sua questione pregiudiziale, cioè giovedì in apertura della discussione sulla relazione.
+
+Signora Presidente, in coincidenza con la prima tornata dell'anno del Parlamento europeo, negli Stati Uniti in Texas è stata fissata, purtroppo per giovedì prossimo, l'esecuzione di un condannato a morte, un giovane di 34 anni che chiameremo di nome Hicks.
+Su richiesta di un deputato francese, l'onorevole Zimeray, è già stata presentata una petizione, che ha avuto molti firmatari tra cui il sottoscritto, ma le chiedo, in conformità con l'indirizzo ormai costantemente espresso dal Parlamento europeo e da tutta la Comunità europea, di intervenire, con il prestigio della sua carica e dell'Istituzione che lei rappresenta, presso il Presidente e il Governatore del Texas Bush, che ha il potere di sospendere la condanna a morte e di graziare il condannato.
+E tutto ciò in conformità con i principi che abbiamo sempre sostenuto.
+
+La ringrazio, onorevole Segni, lo farò volentieri. In effetti ciò è assolutamente conforme alla posizione che il nostro Parlamento ha sempre sostenuto.
+
+Signora Presidente, vorrei richiamare l'attenzione su un caso che il Parlamento segue da tempo, ossia il caso di Alexander Nikitin. Noi tutti siamo lieti che il tribunale lo abbia assolto, ribadendo che anche in Russia l'accesso a informazioni sull'ambiente è un diritto sancito dalla costituzione. Ora, però, verrà messo nuovamente in stato di accusa perché il pubblico ministero ricorrerà in appello. Come sappiamo e come abbiamo fatto rilevare in innumerevoli risoluzioni - anche nell'ultima seduta plenaria dell'anno scorso - non si tratta semplicemente di un caso giudiziario ed è un grave errore accusare Alexander Nikitin di aver commesso reati e atti criminali, tanto più che noi, in quanto diretti interessati, abbiamo beneficiato dei risultati delle sue ricerche. Tali risultati sono alla base dei programmi europei di tutela del Mare di Barents. La prego pertanto di prendere in esame la bozza della lettera in cui vengono indicati i fatti principali e di sostenere presso le autorità russe la posizione assunta dal Parlamento, conformemente alle sue risoluzioni.
+
+Sì, onorevole Scroedter, esaminerò volentieri i fatti relativi alla questione da lei esposta non appena avrò ricevuto la sua lettera.
+
+Signora Presidente, mi permetta di farle innanzi tutto i miei complimenti per aver tenuto fede alla parola data. In effetti il numero di canali televisivi disponibili nei nostri uffici è aumentato enormemente in questa prima tornata dell'anno nuovo. Tuttavia, signora Presidente, non è ancora stato dato seguito alla mia richiesta. E' vero che adesso abbiamo due canali finlandesi e uno portoghese, ma purtroppo manca ancora il canale olandese. Ed era proprio quello che avevo chiesto, dato che noi parlamentari olandesi, quando veniamo spediti in questo esilio mensile, gradiremmo poter vedere il telegiornale in olandese. Ripeto ancora una volta la mia richiesta: faccia in modo che sia reso disponibile anche un canale olandese.
+
+Onorevole Plooj-van Gorsel, posso risponderle che tale punto figura all' ordine del giorno della riunione dei questori di mercoledì. Spero che sarà esaminata con uno spirito positivo.
+
+Signora Presidente, vorrei sapere perché questo Parlamento non rispetta le norme in materia di salute e sicurezza che esso stesso approva. Perché non è stato condotto alcun test della qualità dell'aria in questo edificio da quando siamo stati eletti? Perché dal 1998 il comitato salute e sicurezza non si è più riunito? Perché non sono state fatte prove dell'allarme antincendio né negli edifici del Parlamento di Bruxelles né qui a Strasburgo? Perché non esistono istruzioni da seguire in caso di incendio? Perché dopo il mio incidente non sono state apportate migliorie alle scale? Perché non viene fatto rispettare il divieto di fumare nelle aree riservate appunto ai non fumatori? E' assolutamente vergognoso che proprio noi non rispettiamo le norme da noi stessi approvate.
+
+Onorevole Lynne, lei ha perfettamente ragione e intendo verificare se tutto quanto lei ha detto davvero non è stato fatto. Intendo altresì sottoporre il punto al collegio dei questori e sono certa che ai nostri questori starà a cuore fare in modo che il Parlamento osservi le disposizioni che approva.
+
+Signora Presidente, l' onorevole Díez González e io avevamo presentato alcune interrogazioni in merito a determinate opinioni della Vicepresidente de Palacio riferite da un giornale spagnolo. I servizi competenti non le hanno inserite all' ordine del giorno, in quanto hanno ritenuto che avessero già ottenuto risposta in una tornata precedente.
+Chiedo che venga riesaminata tale decisione, in quanto non è così. Le interrogazioni cui è stata data risposta in precedenza riguardavano un intervento della Commissario de Palacio in un caso determinato, non le dichiarazioni pubblicate dal giornale ABC il 18 novembre scorso.
+
+Onorevole collega, sarà mia cura verificare tale punto. Devo confessarle che in questo momento la questione mi pare un po' confusa. Quindi verificheremo con estrema attenzione per essere certi che tutto sia corretto.
+
+Signora Presidente, gradirei sapere se questa settimana il Parlamento intende lanciare un segnale chiaro per esprimere il nostro scontento riguardo alla decisione presa oggi di rifiutare il rinnovo dell'embargo sulle armi contro l' Indonesia, visto e considerato che in passato la stragrande maggioranza dei deputati aveva sostenuto l'imposizione dell'embargo all'Indonesia. La decisione odierna di non rinnovarlo è pericolosissima, data la situazione sul posto. Il Parlamento dovrebbe pertanto inviare un messaggio, come auspica la stragrande maggioranza dei deputati. Gli Stati membri dell'Unione sono stati irresponsabili a non rinnovare l'embargo. Com'è già stato detto, la situazione in Indonesia è davvero esplosiva, con un forte rischio che in futuro si verifichi un colpo di Stato. Non sappiamo cosa stia succedendo e quindi mi chiedo perché si debba permettere ai produttori di armi dell'UE di trarne profitto a scapito di persone innocenti.
+
+Comunque sia, questo punto non è previsto nelle discussioni sui problemi di attualità di giovedì.
+
+Ordine dei lavori
+L' ordine del giorno reca la fissazione dell' ordine dei lavori.
+E' stata distribuita la versione definitiva del progetto di ordine del giorno, elaborata, ai sensi dell' articolo 110 del Regolamento, dalla Conferenza dei presidenti nella seduta di giovedì 13 gennaio. Non sono state proposte modifiche per lunedì e martedì.
+Mercoledì:
+Il gruppo PSE ha chiesto di iscrivere una dichiarazione della Commissione sui suoi obiettivi strategici per i prossimi cinque anni e sulla riforma amministrativa della Commissione.
+Desidero che l' onorevole Barn Crespo, autore della richiesta, intervenga per motivarla, ovviamente se lo desidera. Poi procederemo come di norma: sentiremo un oratore a favore e uno contro.
+
+Signora Presidente, l' idea che la Commissione Prodi presentasse il suo programma politico per tutta la legislatura proviene inizialmente da una proposta del gruppo del Partito del socialismo europeo, approvata all' unanimità dalla Conferenza dei Presidenti in settembre e anche accettata esplicitamente dal Presidente Prodi, che ha ribadito il suo impegno al riguardo durante il discorso di investitura.
+Si tratta di un impegno importante in quanto la Commissione è un organo che detiene il monopolio di iniziativa, conformemente ai Trattati, e di conseguenza delinea i tratti essenziali di quella che sarà l' attività politica e legislativa di questo Parlamento nei prossimi cinque anni. Ricordo altresì, signora Presidente, che durante la precedente legislatura il Parlamento ha votato due volte la fiducia a favore del Presidente Prodi; durante l' attuale legislatura l' ha votata di nuovo a luglio e poi, dopo l' insediamento della nuova Commissione, ha votato nuovamente la fiducia per l' intera Commissione in settembre. Quindi c' è già stato tempo a sufficienza per permettere alla Commissione di elaborare il suo programma e per consentirci di prenderne conoscenza per poi spiegarlo ai cittadini. A tale proposito ricordo la risoluzione del 15 settembre scorso, in cui si raccomandava di presentare la proposta il più rapidamente possibile.
+I fatti della settimana scorsa - scaturiti a latere della Conferenza dei Presidenti, sfruttata solo per corroborare e ratificare decisioni adottate al di fuori di essa - ci pongono di fronte a un dilemma: o la Commissione non è in grado di presentare questo programma (in tal caso, sarebbe opportuno che lo dicesse. A sentire il suo Presidente, è in grado di farlo. Dato che la Commissione è rappresentata dalla vicepresidente de Palacio, ritengo che prima di votare converrebbe sapere se la Commissione è sempre disposta a presentare il programma, conformemente agli accordi); oppure il Parlamento non è in grado di esaminare tale programma, come apparentemente sostengono alcuni. Secondo me, questa seconda ipotesi significherebbe rinunciare alle nostre responsabilità di Parlamento, oltre a introdurre una tesi originale, un metodo finora sconosciuto che consiste nel distribuire per iscritto ai gruppi politici il discorso programmatico della Commissione una settimana prima - e non il giorno prima, come era stato concordato. Considerando che il programma legislativo sarà discusso a febbraio, potremmo prescindere dal dibattito, in quanto il giorno dopo la stampa ed Internet avrebbero divulgato il testo a tutti i cittadini e quindi il Parlamento non avrebbe più bisogno di occuparsene.
+Secondo il mio gruppo, un Parlamento serve per ascoltare, discutere e riflettere, quindi a nostro avviso non c' è alcuna ragione che giustifichi questo rinvio. Se la Commissione è in grado di presentare il programma, secondo noi siamo perfettamente in tempo per ripristinare l' accordo iniziale intervenuto tra il Parlamento e la Commissione e comportarci responsabilmente dinnanzi ai nostri concittadini. Perciò la proposta del gruppo del Partito del socialismo europeo, da lei menzionata, è che mercoledì si mantenga la presentazione del programma per la legislatura della Commissione Prodi, inserendovi anche il progetto di riforma amministrativa. Altrimenti potremmo ritrovarci in una situazione paradossale: con la scusa che non c' è il testo, si nega da un lato il diritto del Presidente della Commissione di rivolgersi a questo Parlamento, e dall' altro che abbia luogo una discussione sulla riforma, senza che il Parlamento conosca a priori i testi su cui si basa. Pertanto, signora Presidente, la prego di chiedere alla Commissione di esprimersi subito e poi di procedere al voto.
+(Applausi dai banchi del gruppo del partito del socialismo europeo)
+
+Signora Presidente, onorevoli colleghi, sono piuttosto sorpreso del comportamento del collega, onorevole Barón Crespo, che ora pretende che il punto in questione venga inserito nell'ordine del giorno di mercoledì.
+Onorevole collega Barón Crespo, lei non ha potuto partecipare giovedì scorso alla Conferenza dei presidenti. Non la biasimo per questo: può sempre succedere che si debba essere sostituiti. Il collega Hänsch è intervenuto in sua vece. In sede di Conferenza dei presidenti ne abbiamo discusso approfonditamente. Soltanto un gruppo politico condivideva l'opinione da lei espressa in questa sede. La questione è stata posta ai voti. Come è noto, ciascun presidente dispone di un numero di voti pari al numero dei deputati iscritti al proprio gruppo politico. Il punto in questione è stato oggetto di una votazione in cui, se ben ricordo, vi sono stati 422 voti contrari e 180 a favore con poche astensioni. Ciò significa che tutti i gruppi politici, ad eccezione dei non iscritti - che però non costituiscono un gruppo politico -, erano concordi e che un solo gruppo era del parere di procedere come proposto dal collega in questa sede. Tutti gli altri erano di diversa opinione e così è stato deciso.
+Vorrei ora entrare brevemente nel merito. Abbiamo fiducia nella Commissione, in Romano Prodi e la grande maggioranza del nostro gruppo politico, come tutti sanno, dopo un difficile processo ha votato la fiducia a Romano Prodi e alla Commissione. Tuttavia siamo anche dell'idea che la strategia della Commissione vada discussa nel corso di una procedura regolare, non soltanto in base a una dichiarazione rilasciata oralmente in questo Parlamento ma anche in base a un documento adottato dalla Commissione che illustri tale programma per i prossimi cinque anni. Ma un tale documento non esiste ancora!
+
+La Commissione presenterà il programma per il 2000 in febbraio. Abbiamo acconsentito: se la Commissione non vuole discutere il programma 2000 in gennaio lo faremo in febbraio. Non è certo nostra intenzione entrare in conflitto con la Commissione. Al contrario, pensiamo che per quanto possibile la Commissione e il Parlamento debbano percorrere una strada comune. Il Parlamento, tuttavia, esercita anche funzioni di controllo nei confronti della Commissione e non tutto ciò che viene proposto da quest'ultima deve necessariamente trovarci concordi.
+Vorrei che all'interno dei gruppi politici potessimo prepararci adeguatamente al dibattito sul programma quinquennale. Non è possibile farlo ascoltando una dichiarazione di cui non conosciamo con esattezza il contenuto. Perciò raccomandiamo - e ho l'impressione che anche la Commissione sia disposta ad accogliere questa idea - di discutere in febbraio il programma a lungo termine della Commissione che si estende fino al 2005 - sperando che a quel punto la Commissione abbia concordato un programma che ci sottoporrà - e, sempre in febbraio, anche il programma legislativo della Commissione per l'anno 2000. E' dunque sulla base di un nesso oggettivo che proponiamo di discutere contestualmente i due programmi e per questa ragione il mio gruppo politico respinge decisamente la proposta del gruppo socialista!
+(Applausi dai banchi del gruppo del PPE-DE)
+
+Signora Presidente, desidero affermare chiaramente che, innanzi tutto, la Commissione nutre il massimo rispetto per le decisioni del Parlamento tra cui quella di elaborare il proprio ordine del giorno. Quindi, noi rispettiamo le eventuali decisioni in materia del Parlamento.
+Ma voglio dire altrettanto chiaramente che il Presidente Prodi si è impegnato con il Parlamento a inserire un nuovo dibattito, come ha ricordato l' onorevole Barón, oltre al dibattito annuale sul programma legislativo della Commissione, sulle grandi linee di azione per il prossimo quinquennio, cioè per la presente legislatura.
+Tengo a sottolineare, signora Presidente, che, secondo l' accordo concluso nel settembre scorso, questo dibattito era distinto dalla presentazione del programma legislativo della Commissione. E desidero far sapere che, per quanto riguarda la Commissione, siamo pronti e disposti a tenere questo dibattito quando lo si ritenga opportuno; eravamo già pronti a farlo questa settimana, conformemente all' accordo iniziale, sulla base dell' intesa di una presentazione del discorso ai gruppi parlamentari il giorno prima.
+Quindi, signora Presidente, ribadisco che da parte nostra abbiamo discusso del programma di azione per il prossimo quinquennio e che siamo pronti a presentarlo quando vuole il Parlamento - anche questa settimana, se decide il tal senso- mentre il mese prossimo toccherà al programma per il 2000, esattamente come era stato stabilito.
+
+Propongo di porre in votazione la richiesta del gruppo PSE di iscrivere nuovamente all' ordine del giorno la dichiarazione della Commissione sui suoi obiettivi strategici.
+(Il Parlamento respinge la richiesta)
+Presidente. Sempre sulla giornata di mercoledì ho ricevuto un' altra proposta di modifica relativa alla interrogazione orale sull' imposta patrimoniale che il gruppo PPE-DE chiede di ritirare dall' ordine del giorno.
+Qualcuno desidera intervenire a nome del gruppo per motivare tale richiesta?
+
+Signora Presidente, sento qualche risata fra i socialisti. Mi è stato detto che anche una parte cospicua del gruppo socialista vorrebbe che questo punto venisse ritirato dall'ordine del giorno, in quanto nella votazione in sede di Conferenza dei presidenti è mancato il voto del gruppo di lavoro dei colleghi competenti del gruppo socialista. Non so se questa informazione sia corretta, ma noi del PPE-DE saremmo comunque grati se il suddetto punto venisse eliminato visto che il Parlamento si è già occupato ripetutamente della questione. Esistono anche alcune decisioni contro tale imposta. Per questa ragione il gruppo del PPE-DE chiede che il punto in questione venga ritirato dall'ordine del giorno.
+
+La ringrazio, onorevole Poettering.
+Ha facoltà l' onorevole Wurtz che interviene contro la richiesta.
+
+Signora Presidente, vorrei innanzi tutto sottolineare la mancanza di logica da parte dell' onorevole Poettering che ha appena fatto la morale al gruppo socialista per essere tornato su una decisione approvata dalla Conferenza dei presidenti con una netta maggioranza. Ebbene, egli ha fatto la stessa cosa. Si era discusso e tutti si erano detti d' accordo, tranne il gruppo PPE-DE e il gruppo ELDR. In tale circostanza - gli onorevoli colleghi presidenti lo ricorderanno - avevo altresì sottolineato che il punto non era tanto sapere se siamo a favore o contro la tassa Tobin, ma se abbiamo il coraggio di ascoltare che cosa ne pensano la Commissione e il Consiglio. Non è chiedere molto. Pertanto, reitero la proposta di mantenere all' ordine del giorno l' interrogazione orale al Consiglio e alla Commissione, per apprendere, una volta per tutte, la posizione delle due Istituzioni su una proposta relativamente modesta, ma che lancerebbe un segnale importante all' opinione pubblica, soprattutto sull' onda dell' emozione suscitata dal fallimento della Conferenza di Seattle.
+
+Pongo ora in votazione la richiesta del gruppo PPE-DE intesa a ritirare dall' ordine del giorno l' interrogazione orale sull' imposta patrimoniale.
+(Il Parlamento respinge la richiesta con 164 voti favorevoli, 166 contrari e 7 astenuti)
+
+Signora Presidente, ringrazio l' onorevole Poettering per l' inaspettata pubblicità che ha appena dato a questa discussione. Grazie!
+
+Signora Presidente, è stato contato il mio voto, che non è stato deposto elettronicamente, perché non ho la scheda? Il mio voto era favorevole.
+
+In effetti, se aggiungiamo i voti dei due colleghi che sono intervenuti, il risultato...
+
+Signora Presidente, la Presidenza ha già annunciato l' esito della votazione. Non sono ammesse modifiche.
+
+Onorevoli colleghi, ancora una volta, occorre presentarsi in Aula con la carta di votazione anche il lunedì. Evidentemente abbiamo un problema sul quale sono chiamata a prendere una decisione.
+Anch' io ho dimenticato la mia carta di votazione e avrei votato contro. Ritengo pertanto che si debba concludere che l' interrogazione orale rimane iscritta all' ordine del giorno.
+
+Questa è l' ultima volta che si terrà conto del voto dei deputati che hanno dimenticato la loro carta di votazione. Che sia ben chiaro per tutti.
+(Applausi)
+Sì, l' interrogazione orale resta all' ordine del giorno ed ebbene sì, la Presidente ha diritto di votare così come ha diritto anche di dimenticare la carta di votazione.
+Proseguiamo con le altre modifiche all' ordine del giorno.
+
+Signora Presidente, premetto che rispetterò la sua decisione, ma durante la votazione precedente sulla questione del piano strategico della Commissione avevo manifestato l'intenzione di intervenire a nome del mio gruppo prima della votazione, ma non ne ho avuto la possibilità. Le sarei molto grato se prima di chiudere questo punto all'ordine del giorno mi permettesse di rilasciare una dichiarazione di voto a nome del mio gruppo. Si tratta di una cosa importante e sarebbe utile poter mettere a verbale il motivo del nostro comportamento al momento della votazione alla luce della nostra analisi politica.
+
+Signora Presidente, non è mia intenzione riprendere la discussione, ma anch'io avevo chiesto di intervenire per prendere posizione sulla richiesta dell'onorevole Barón Crespo. Lei non mi ha dato la parola. Ne sono spiacente anche se ormai la votazione è già stata effettuata, la decisione presa e quindi la questione è da considerarsi chiusa.
+
+Me ne dispiace, onorevoli Hnsch e Cox, non mi ero accorta che avevate chiesto la parola. Comunque mi pare che le posizioni siano chiare e saranno riportate al processo verbale. Quando domani approveremo il processo verbale della seduta odierna i colleghi che dovessero ritenerlo inadeguato potranno chiedere che esso venga modificato. Mi pare una buona soluzione. Evidentemente il processo verbale della seduta di domani riporterà tutte le eventuali dichiarazioni complementari. Mi pare una formula migliore piuttosto che procedere ora alle dichiarazioni di voto che ci porterebbero molto lontano. Onorevole Cox, onorevole Hnsch, siete d' accordo?
+
+Signora Presidente, se il verbale rispecchierà correttamente il voto del mio gruppo non avrò alcuna obiezione. Ma se la sua decisione implica che non posso rilasciare una dichiarazione di voto, la accetto con delle riserve.
+
+Faremo molta attenzione allora alla redazione del processo verbale, come per altro facciamo sempre. Se esso non rifletterà correttamente le posizioni potrà essere modificato.
+(Il Parlamento approva l' ordine del giorno così modificato)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/lt.test b/tika-core/src/test/resources/org/apache/tika/language/lt.test
new file mode 100644
index 0000000000..e2b0dee4b8
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/lt.test
@@ -0,0 +1,32 @@
+Lietuvos Respublikos Seimas,
+
+
+
+stebėdamas 2010 m. Baltarusijos Respublikos Prezidento rinkimus, pasirengimą jiems ir juos lydinčius įvykius,
+
+atsižvelgdamas į Europos saugumo ir bendradarbiavimo organizacijos Baltarusijos Respublikai dėl rinkimų ir jų organizavimo pateiktus siūlymus ir dalinį šių siūlymų įgyvendinimą,
+
+įvertindamas 2010 m. gruodžio 19 d. rinkimus jų teisėtumo, skaidrumo ir atvirumo atžvilgiu,
+
+reikšdamas susirūpinimą dėl teisėsaugos institucijų neproporcingos jėgos panaudojimo prieš gyventojus 2010 m. gruodžio 19-20 d. taikiame mitinge,
+
+sunerimęs dėl areštuotų asmenų, tarp jų prezidento rinkimų kandidatų, saugumo ir deramos jų teisių apsaugos,
+
+
+
+apgailestaudamas konstatuoja, kad 2010 m. gruodžio 19 d. prezidento rinkimai neatitiko Europos saugumo ir bendradarbiavimo organizacijos keliamų demokratiškumo ir skaidrumo reikalavimų,
+
+reikalauja nedelsiant išleisti į laisvę suimtus 2010 m. gruodžio 19-20 d. taikaus mitingo dalyvius,
+
+kviečia Baltarusijos vyriausybę nenaudoti riaušių kaip preteksto susidorojimui su opozicija, politinėmis organizacijomis ir pavieniais politikais,
+
+kviečia Lietuvos Respublikos Prezidentą ir Vyriausybę, o taip pat visas Europos saugumo ir bendradarbiavimo organizacijos valstybes nares, įvertinus Baltarusijos Respublikoje vykstančius procesus, nepripažinti 2010 m. gruodžio 19 d. rinkimų demokratiškais ir teisėtais,
+
+skatina Lietuvos Respublikos Vyriausybę ir Seimą, atsižvelgiant į Lietuvos Respublikos pirmininkavimą Europos saugumo ir bendradarbiavimo organizacijoje 2011 m., dėti aktyvias pastangas sprendžiant demokratijos, žmogaus teisių ir rinkimų laisvės klausimus Baltarusijos Respublikoje,
+
+ragina Baltarusijos valdžią įsijungti į realų, atviresnį ir labiau įsipareigojantį dialogą su Europos saugumo ir bendradarbiavimo organizacija ir kitomis tarptautinėmis organizacijomis, pilnai įgyvendinti jų parengtus pasiūlymus, kad galų gale įvyktų tikrai demokratiški rinkimai,
+
+siūlo Lietuvos Respublikos Prezidentui, Vyriausybei, Seimo Užsienio reikalų komitetui apsvarstyti tikslingumą Europos Sąjungos formatuose kelti klausimą dėl sankcijų Baltarusijos Respublikai suspendavimo nutraukimo.
+
+
+Rezoliucija įsigalioja nuo priėmimo.
diff --git a/tika-core/src/test/resources/org/apache/tika/language/nl.test b/tika-core/src/test/resources/org/apache/tika/language/nl.test
new file mode 100644
index 0000000000..92473f7203
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/nl.test
@@ -0,0 +1,105 @@
+Hervatting van de zitting
+Ik verklaar de zitting van het Europees Parlement, die op vrijdag 17 december werd onderbroken, te zijn hervat. Ik wens u allen een gelukkig nieuwjaar en hoop dat u een goede vakantie heeft gehad.
+Zoals u heeft kunnen constateren, is de grote "millenniumbug" uitgebleven. De burgers van een aantal van onze lidstaten zijn daarentegen door verschrikkelijke natuurrampen getroffen. U heeft aangegeven dat u deze vergaderperiode een debat wilt over deze rampen. Nu wil ik graag op verzoek van een aantal collega's een minuut stilte in acht nemen ter nagedachtenis van de slachtoffers. Ik doel hiermee met name op de slachtoffers van het noodweer dat verschillende lidstaten van de Unie heeft geteisterd. Ik wil u vragen deze minuut stilte staande in acht te nemen.
+(Het Parlement neemt staande een minuut stilte in acht)
+
+Mevrouw de Voorzitter, ik wil een motie van orde stellen. U zult via de media hebben vernomen dat er zich in Sri Lanka een aantal bomexplosies en schietpartijen hebben voorgedaan. Een van de mensen die zeer recent in Sri Lanka is vermoord, is de heer Kumar Ponnambalam, die een paar maanden geleden nog een bezoek bracht aan het Europees Parlement. Zou u, mevrouw de Voorzitter, wellicht een brief kunnen schrijven aan de President van Sri Lanka, waarin u laat weten dat uzelf en het Europees Parlement deze moord en de overige brute moorden in Sri Lanka diep betreuren, en waarin u haar oproept al het nodige te doen om in deze zeer moeilijke situatie langs vreedzame weg tot verzoening te komen?
+
+Ja, mijnheer Evans, ik denk dat een dergelijk initiatief zeer gepast zou zijn. Als het Parlement ermee instemt, geef ik graag gevolg aan uw suggestie.
+
+ Mevrouw de Voorzitter, ik wil een motie van orde stellen. Ik vraag uw advies over artikel 143 van het Reglement, met betrekking tot niet-ontvankelijkheid. Mijn vraag betreft een zaak die voor donderdag op de agenda staat en waarop ik dan opnieuw zal ingaan.
+Het verslag Cunha, over het resultaat van de meerjarige oriëntatieprogramma's voor de vissersvloot, wordt donderdag in het Parlement besproken. In artikel 6 van dit verslag wordt voorgesteld een soort strafkorting op vangstquota toe te passen voor lidstaten die zich niet houden aan de jaarlijkse doelstellingen voor vlootinkrimping. Dit zou moeten gebeuren in weerwil van het beginsel van relatieve stabiliteit. Naar mijn mening is de relatieve stabiliteit een grondbeginsel van het gemeenschappelijk visserijbeleid, en zou een voorstel om dit te ondermijnen juridisch niet-ontvankelijk zijn. Ik zou graag willen weten of een dergelijk bezwaar kan worden ingebracht tegen enkel een verslag, dus niet een ontwerpwetgevingsvoorstel, en of ik aanstaande donderdag gerechtigd ben dit te doen.
+
+Dat is inderdaad het juiste moment om dit vraagstuk ter tafel te brengen, dat wil zeggen donderdag voordat het verslag wordt gepresenteerd.
+
+Mevrouw de Voorzitter, helaas valt de eerste vergaderperiode van het Europees Parlement in het nieuwe jaar samen met de executie van een jonge terdoodveroordeelde van 34 jaar, Hicks genaamd. Deze executie is door de staat Texas van de Verenigde Staten vastgesteld voor aanstaande donderdag.
+Op initiatief van een van de Franse afgevaardigden, de heer Zimeray, is al een petitie aangeboden, die door velen is ondertekend, onder andere door mij. Maar ik wil u vragen om, in uw hoedanigheid van Voorzitter van het Europees Parlement, uw invloed aan te wenden bij de president en de gouverneur van de staat Texas, de heer Bush, die de macht heeft om de terdoodveroordeling op te schorten en de veroordeelde gratie te verlenen, in overeenstemming met het standpunt van het Europees Parlement en de gehele Europese Gemeenschap, zoals dat herhaaldelijk naar voren is gekomen.
+Bovendien is een dergelijke actie in overeenstemming met onze grondbeginselen.
+
+Hartelijk dank, mijnheer Segni, dat wil ik graag doen. Het ligt ook geheel in de lijn van de standpunten die ons Parlement altijd met betrekking tot dergelijke vraagstukken heeft ingenomen.
+
+Mevrouw de Voorzitter, ik zou op een geval willen wijzen waarmee dit Parlement zich keer op keer bezig heeft gehouden, het geval-Alexander Nikitin. We zijn allemaal blij dat de rechter hem heeft vrijgesproken en duidelijk heeft gemaakt dat ook in Rusland het recht op toegang tot informatie over het milieu door de grondwet wordt gegarandeerd. Hij schijnt echter weer voor de rechter te moeten verschijnen, omdat de officier van justitie in beroep gaat. We weten allemaal, en hebben dat ook gezegd in talloze resoluties, onder andere nog tijdens de laatste plenaire vergadering vorig jaar, dat dit niet alleen een geval voor juristen is, en dat het verkeerd is Alexander Nikitin te beschuldigen van misdrijven en verraad. Wij zijn namelijk direct betrokken bij de resultaten van zijn onderzoek en profiteren ervan. Deze resultaten vormen de basis voor de Europese programma' s voor de bescherming van de Barentszzee, en daarom zou ik u willen vragen een brief te bestuderen waarin de belangrijkste feiten worden samengevat, en een standpunt te bepalen over de besluiten van het Russische parlement.
+
+Mevrouw Schroedter, nadat ik uw brief ontvangen heb, zal ik de feiten die op dit vraagstuk betrekking hebben, zeker bestuderen.
+
+Voorzitter, ik zou u eerst een compliment willen maken met het feit dat u woord hebt gehouden en dat inderdaad nu in deze eerste vergaderperiode in het nieuwe jaar het aantal televisiezenders op onze kamer daadwerkelijk enorm is uitgebreid. Maar, Voorzitter, er is niet gebeurd waar ik om had gevraagd. Er zijn nu weliswaar twee Finse zenders en een Portugese zender, maar er is nog steeds geen Nederlandse zender en ik had u gevraagd om een Nederlandse zender, omdat ook Nederlanders graag het nieuws willen volgen, iedere maand als wij hier naar dit verbanningsoord worden gestuurd. Dus ik zou u nogmaals willen vragen om er toch zorg voor te dragen dat wij ook een Nederlandse zender krijgen.
+
+Mevrouw Plooij-van Gorsel, ik kan u mededelen dat dit vraagstuk op de agenda van de vergadering van het College van quaestoren van aanstaande woensdag staat. Het zal, naar ik hoop, op bevredigende wijze worden opgelost.
+
+Mevrouw de Voorzitter, kunt u mij uitleggen waarom dit Parlement zich niet houdt aan gezondheids- en veiligheidsvoorschriften die het zelf vaststelt? Waarom is de kwaliteit van de lucht in dit gebouw nooit onderzocht sinds de verkiezingen? Waarom heeft het Comité voor veiligheid en hygiëne sinds 1998 niet meer vergaderd? Waarom is er noch in het Parlementsgebouw in Brussel noch hier in Straatsburg een brandweeroefening gehouden? Waarom zijn er nergens instructies over wat te doen in geval van brand? Waarom zijn er sinds mijn ongeval geen verbeteringen aangebracht aan de trappen? Waarom wordt het rookverbod niet gehandhaafd in daarvoor aangewezen delen van het gebouw? Het is absoluut onaanvaardbaar dat wij wetgeving goedkeuren en dat wij ons daar zelf niet aan houden.
+
+Mevrouw Lynne, u hebt volkomen gelijk. Ik zal nagaan of dit inderdaad niet gebeurd is. Ik zal het vraagstuk verder aan het College van quaestoren voorleggen. Ik ben ervan overtuigd dat onze quaestoren ervoor zullen zorgdragen dat de wetgeving waarover we ons hebben uitgesproken, ook daadwerkelijk wordt nageleefd.
+
+Mevrouw de Voorzitter, mevrouw Díez González en ikzelf hadden samen een aantal vragen gesteld naar aanleiding van bepaalde uitspraken van commissaris de Palacio in een Spaans dagblad. De voor de agenda verantwoordelijke diensten hebben die vragen niet op de agenda geplaatst, daar die vragen al in een andere vergaderperiode beantwoord zouden zijn.
+Daar dat niet zo is, verzoek ik het desbetreffende besluit te heroverwegen. De eerder beantwoorde vragen betreffen de bijdrage van mevrouw de Palacio over een ander dossier en gaan niet over de uitspraken die 18 november jongstleden in de krant ABC zijn verschenen.
+
+Waarde collega, we zullen dit alles natrekken. Ik moet u bekennen dat ik de situatie nu enigszins verwarrend vind. We zullen daarom deze kwestie zorgvuldig nagaan en correct volgens de regels handelen.
+
+Mevrouw de Voorzitter, ik zou graag willen weten of het Parlement deze week duidelijk zijn ongenoegen zal laten blijken over het vandaag genomen besluit het wapenembargo tegen Indonesië niet te verlengen. De overgrote meerderheid van het Parlement heeft zich in het verleden immers uitgesproken voor dit embargo.Gezien de situatie in Indonesië is het besluit het embargo niet te verlengen uiterst riskant. Het Parlement moet dan ook een signaal afgeven, aangezien een grote meerderheid dit wenst.Dat de lidstaten van de Europese Unie weigeren het embargo te verlengen, is zonder meer onverantwoordelijk, de explosieve situatie in het land in aanmerking nemend. Het gevaar van een militaire coup is niet denkbeeldig.Wij weten niet wat er aan de hand is. Waarom zouden EU-wapenfabrikanten moeten profiteren van een situatie die ten koste gaan van onschuldige mensen?
+
+Dit punt staat op dit moment in ieder geval niet voor het actualiteitendebat van donderdag ingeschreven.
+
+Regeling van de werkzaamheden
+Aan de orde is de behandeling van de definitieve ontwerpagenda zoals deze op de Conferentie van voorzitters op donderdag 13 januari is vastgesteld overeenkomstig artikel 110 van het Reglement. Ik heb geen wijzigingen voor de maandag en de dinsdag.
+Woensdag 19 januari:
+De socialistische fractie vraagt om inschrijving van een verklaring van de Commissie over haar strategische doelstellingen voor de komende vijf jaar alsmede over de bestuurlijke hervorming van de Commissie.
+Ik zou de heer Barón Crespo willen vragen zijn verzoek om inschrijving hier toe te lichten. Vervolgens zullen we de gebruikelijke procedure volgen, dat wil zeggen dat we een voorstander en een tegenstander van dit verzoek het woord zullen geven.
+
+Mevrouw de Voorzitter, de presentatie van het politieke programma van de Commissie Prodi voor de hele legislatuur was oorspronkelijk een voorstel van Fractie van de Partij van de Europese Sociaal-Democraten, dat in september de unanieme steun kreeg van de Conferentie van voorzitters. Ook de heer Prodi gaf er uitdrukkelijk zijn steun aan, en in de rede waarmee hij zijn benoeming aanvaardde, heeft hij die toezegging nog eens herhaald.
+Die toezegging is vooral belangrijk omdat de Commissie volgens de Verdragen het monopolie heeft op het initiatiefrecht en dus eigenlijk vorm geeft aan wat de komende vijf jaar de politieke en de wetgevende activiteit van dit Parlement zal zijn. Bovendien wil ik eraan herinneren, mevrouw de Voorzitter, dat dit Parlement in de vorige legislatuur tweemaal zijn vertrouwen heeft uitgesproken in de heer Prodi als voorzitter van de Commissie. Tijdens de nieuwe legislatuur is dat vertrouwen nogmaals uitgesproken in juli, en na het aantreden van de voltallige nieuwe Commissie is dat vertrouwen in september aan de hele Commissie geschonken. Er is derhalve in theorie voldoende tijd geweest voor de Commissie om haar programma op te stellen en voor ons om er dan kennis van te nemen en uitleg te geven aan de burgers. In dit verband wil ik wijzen op de resolutie van 15 september, waarin de Commissie de aanbeveling kreeg het voorstel zo snel mogelijk in te dienen.
+De gebeurtenissen van de vorige week in de marge van de Conferentie van voorzitters, waarbij de Conferentie van voorzitters alleen maar gebruikt is om elders genomen besluiten te bekrachtigen en te ratificeren, plaatsen ons voor een dilemma: ofwel de Commissie is niet in staat dat programma te presenteren, ofwel, zoals sommigen schijnen te beweren, het Parlement is niet in staat dat programma te behandelen. In het eerste geval zou de Commissie haar onvermogen moeten toelichten, want volgens de voorzitter van de Commissie is de Commissie klaar voor de presentatie. Daar de Commissie hier vertegenwoordigd is door haar vice-voorzitter mevrouw de Palacio, denk ik dat het gepast zou zijn om voor wij gaan stemmen van de Commissie te horen hoe het zit met haar bereidheid het programma te presenteren zoals is afgesproken. Naar mijn mening houdt de tweede hypothese in dat wij als Parlement onze verantwoordelijkheid verwaarlozen. Volgens een tot nu onbekende procedure krijgen de fracties een week van tevoren - en niet zoals afgesproken één dag van tevoren - de geschreven toespraak over het programma van de Commissie. Bovendien is dit wel een zeer originele thesis, want het wetgevingsprogramma wordt in februari behandeld. Wij zouden dan ook kunnen afzien van het debat over dat programma, daar de dag nadat de fracties het gekregen hebben alle burgers dan via de pers en Internet geïnformeerd zouden zijn en het Parlement niets meer met het onderwerp zou kunnen doen.
+Daar onze fractie meent dat het de taak is van een parlement om te luisteren, te debatteren en na te denken, geloven wij dat er geen enkele reden is die dit uitstel rechtvaardigt. Ook menen wij dat indien de Commissie in staat is het programma te presenteren, wij zeker nog de tijd hebben om terug te komen op de oorspronkelijke afspraak tussen het Parlement en de Commissie, en tegenover onze medeburgers op verantwoordelijke wijze te werk te gaan. Derhalve doet de Fractie van de Partij van de Europese Sociaal-Democraten het voorstel dat door u genoemd is, mevrouw de Voorzitter, om woensdag de presentatie van het programma voor de hele legislatuur van de Commissie Prodi te handhaven. Bij dat programma hoort ook de administratieve hervorming van de Commissie, want anders zouden wij met een paradoxale situatie te maken kunnen krijgen. Onder het voorwendsel dat er geen tekst is, wordt namelijk aan de ene kant de voorzitter van de Commissie het recht ontzegd voor dit Parlement te spreken en wordt er aan de andere kant een debat gehouden over de hervorming, terwijl het Parlement de teksten daarvan niet van tevoren kent. Daarom verzoek ik u, mevrouw de Voorzitter, eerst de Commissie te vragen om haar mening te laten horen en daarna te laten stemmen.
+(Applaus van de PSE-fractie)
+
+Mevrouw de Voorzitter, geachte collega's, de houding van de heer Barón Crespo verbaast me wel een beetje. Hij wil dit punt op de agenda van woensdag plaatsen.
+Mijnheer Barón Crespo, u kon niet deelnemen aan de vergadering van de Conferentie van voorzitters op donderdag jongstleden. Daar heb ik het volste begrip voor; het kan altijd gebeuren dat iemand een plaatsvervanger moet sturen. De heer Hänsch heeft u vertegenwoordigd. Tijdens de vergadering van de Conferentie van voorzitters hebben we een uitvoerig debat gevoerd. Uw fractie was de enige die voorstelde wat u hier nu wilt. Daarover hebben we gestemd. Iedere voorzitter heeft zoveel stemmen als zijn of haar fractie leden heeft. Als ik me niet vergis, was het resultaat 422 stemmen tegen 180, bij slechts een paar onthoudingen. Dat betekent dat alle fracties het met elkaar eens waren, behalve de niet-ingeschreven leden, en die vormen geen fractie. Alleen uw fractie heeft voor het voorstel gestemd dat u hier herhaalt. De anderen waren het niet met u eens, en het besluit is genomen.
+Nu wil ik nog even op de zaak zelf ingaan. Wij hebben vertrouwen in de Commissie, in Romano Prodi, en zoals u allemaal weet, heeft de overwegende meerderheid van onze fractie Romano Prodi en de Commissie na een moeizaam proces het vertrouwen geschonken. We vinden echter ook dat we het debat over de strategie van de Commissie volgens de juiste procedure moeten voeren, en niet zomaar naar aanleiding van een mondelinge verklaring hier in het Europees Parlement. We hebben daarvoor ook een document nodig, dat door de Commissie is goedgekeurd en dit vijfjarig programma beschrijft. Een dergelijk document bestaat echter niet!
+De Commissie zal het programma voor 2000 in februari voorstellen. We hebben gezegd: goed, als de Commissie het programma voor 2000 nog niet in januari wil voorstellen, dan moet dat maar in februari. We hebben daarmee ingestemd. Wij willen tenslotte helemaal geen ruzie met de Commissie; wij vinden dat de Commissie en het Europees Parlement als het enigszins mogelijk is een gezamenlijke weg moeten vinden. Als Parlement zijn we echter ook verantwoordelijk voor de controle van de Commissie. Wat van de Commissie komt, is niet altijd ook ons standpunt.
+Ik ben van mening dat de fracties zich gedegen moeten kunnen voorbereiden op het debat over het vijfjarig programma. Naar een verklaring luisteren en van tevoren helemaal niet weten wat de inhoud van die verklaring is, dat is geen goede voorbereiding. Daarom stellen wij voor - en ik heb de indruk dat de Commissie wel openstaat voor dit idee - dat we in februari het debat voeren over het langetermijnprogramma van de Commissie voor de periode tot 2005. Ik hoop dat de Commissie het tegen die tijd eens is geworden over het programma dat ze dan aan ons zal voorleggen. Wij stellen echter voor dat we tegelijkertijd in februari het debat voeren over het wetgevend programma van de Commissie voor 2000. Er zijn goede inhoudelijke redenen om het debat over die twee programma' s samen te voeren. Daarom wijst mijn fractie het voorstel van de socialistische fractie met nadruk van de hand!
+(Applaus van de PPE-DE-Fractie)
+
+Mevrouw de Voorzitter, allereerst wil ik duidelijk maken dat de Commissie alle respect heeft voor de besluiten die dit Parlement neemt, met inbegrip van het opstellen van de agenda. Derhalve respecteren wij wat het Parlement in dit verband zal besluiten.
+Maar ik wens ook duidelijk te maken dat voorzitter Prodi zich tegenover het Parlement verplicht heeft, zoals de heer Barón in herinnering heeft geroepen, om naast het jaarlijks debat over het wetgevingsprogramma van de Commissie een nieuw debat te houden over de grote lijnen van het beleid voor de komende vijf jaar, dat wil zeggen voor deze hele legislatuur.
+Ik wil erop wijzen, mevrouw de Voorzitter, dat dat debat zich volgens het in septembere bereikte akkoord zou onderscheiden van het debat over het jaarlijks wetgevingsprogramma van de Commissie. Ook wil ik laten weten, mevrouw de Voorzitter, dat wij als Commissie bereid en klaar zijn om dat debat op het gepaste moment te houden. Wij waren ook klaar voor een debat gedurende deze week, zoals in beginsel was afgesproken, met dien verstande dat de dag voor het debat het woord aan de fracties zou worden gegeven.
+Daarom wil ik herhalen, mevrouw de Voorzitter, dat wij als Commissie het beleidsprogramma voor de komende vijf jaar besproken hebben en dat, indien het Parlement zo mocht besluiten - eventueel nog deze week -, wij exact volgens de afspraak klaar zijn om dit programma voor de komende vijf jaar te komen toelichten en om de volgende maand hetzelfde te doen met het programma voor het jaar 2000.
+
+Ik stel voor dat we gaan stemmen over het verzoek van de socialistische fractie om de verklaring van de Commissie over haar strategische doelstellingen opnieuw in te schrijven.
+(Het Parlement verwerpt het verzoek)
+Nog altijd met betrekking tot de woensdag heb ik een ander verzoek ontvangen. De PPE-DE-Fractie wil dat de mondelinge vragen over hoofdelijke belasting van de agenda worden geschrapt.
+Welke vertegenwoordiger van deze fractie wil het woord voeren om dit verzoek toe te lichten?
+
+Mevrouw de Voorzitter, ik heb wat gelach gehoord van de banken van de socialistische fractie. Ik heb ook gehoord dat veel leden van die fractie dit punt graag van de agenda zouden willen afvoeren, omdat ten tijde van de stemming in de Conferentie van voorzitters het standpunt van de socialistische leden van de werkgroep die zich met deze zaken bezig houdt, nog niet beschikbaar was. Ik weet niet of dat klopt, maar wij als PPE-DE-Fractie zouden dankbaar zijn als dit punt van de agenda zou kunnen worden afgevoerd. Het Parlement heeft zich namelijk al meerdere malen met deze kwestie bezig gehouden. Er is ook al besloten om deze belasting af te wijzen. Daarom vraagt mijn fractie dit punt van de agenda af te voeren.
+
+Hartelijk dank, mijnheer Poettering.
+We geven nu de heer Wurtz de gelegenheid om zich tegen dit verzoek uit te spreken.
+
+Mevrouw de Voorzitter, ik wil allereerst benadrukken dat de logica in het betoog van de heer Poettering ver te zoeken is. Zojuist heeft hij de socialistische fractie de les gelezen omdat deze fractie terugkomt op een besluit dat overduidelijk tijdens de Conferentie van voorzitters is genomen. Vervolgens handelt hij op precies dezelfde wijze als deze fractie. Wij hebben over dit vraagstuk gedebatteerd en waren, met uitzondering van de PPE-DE-Fractie en de liberale fractie, allen dezelfde mening toegedaan. Zoals u zich herinnert, heb ik opgemerkt, waarde collega-voorzitters, dat het er niet zozeer toe doet of u voor of tegen de Todin-heffing bent, maar dat u van de Commissie en de Raad durft te verlangen dat ze hun mening over dit vraagstuk kenbaar maken. Dat is toch niet teveel gevraagd. Ik herhaal dus mijn voorstel om deze mondelinge vraag aan de Commissie en de Raad te handhaven zodat we voor eens en altijd weten hoe deze twee instellingen over dit relatief eenvoudige verzoek denken. We kunnen zo immers een belangrijk signaal aan de burgers afgeven, zeker na de commotie die na het mislukken van de Conferentie van Seattle is ontstaan.
+
+We gaan stemmen over het verzoek van de PPE-DE-Fractie om de mondelinge vragen over hoofdelijke belasting van de agenda te schrappen.
+(Het Parlement verwerpt het verzoek met 164 stemmen voor, 166 stemmen tegen en 7 onthoudingen)
+
+Mevrouw de Voorzitter, ik wil de heer Poettering er hartelijk voor danken dat hij dit debat zo effectief onder de aandacht heeft gebracht. Hartelijk dank.
+
+Mevrouw de Voorzitter, is mijn stem die ik elektronisch niet heb kunnen uitbrengen omdat ik mijn stemkaart niet bij mij heb, meegeteld? Ik was vóór.
+
+Inderdaad, als we de stemmen van beide collega's die van zich hebben laten horen bij de uitslag optellen, dan wordt het resultaat...
+
+Mevrouw de Voorzitter, u heeft de uitslag van de stemming bekendgemaakt. Daaraan mag niets veranderd worden.
+
+Waarde collega's, ik wil nogmaals benadrukken dat iedereen zijn kaart voor maandag bij zich moet hebben. We hebben nu een probleem en ik zal daarom een beslissing moeten nemen.
+Ik ben mijn kaart ook vergeten en zou anders tegen hebben gestemd. Ik vind dus dat de mondelinge vraag op de agenda moet blijven staan.
+Dit is de laatste keer dat we rekening houden met collega's die hun kaart vergeten zijn. Laat dit nu voor eens en altijd duidelijk zijn.
+(Applaus)Ja, de mondelinge vraag blijft op de agenda gehandhaafd, en ja, de Voorzitter heeft het recht om te stemmen. Ze heeft immers ook het recht haar kaart te vergeten.
+We gaan nu verder met de andere wijzigingen in de agenda.
+
+Mevrouw de Voorzitter, laat mij vooropstellen dat ik mij zal neerleggen bij uw uitspraak in dezen, maar bij de eerdere stemming over de Commissiestrategie had ik voorafgaand aan de stemming namens mijn fractie het woord willen voeren. Dit is niet gebeurd. Ik zou het waarderen indien ik na afsluiting van dit punt de gelegenheid zou krijgen namens mijn fractie een stemverklaring uit te spreken. Het gaat om een belangrijke kwestie. Het is een goede zaak voor dit Parlement dat wordt vastgelegd, hoe de mensen vanuit hun eigen politieke analyse de zojuist genomen beslissing beoordelen.
+
+Mevrouw de Voorzitter, ik wil het debat niet opnieuw openen, maar ik had ook om het woord gevraagd. Ik wilde ingaan op het verzoek van de heer Barón Crespo. U heeft mij het woord niet verleend. Ik vind dat jammer, maar we hebben nu gestemd en een besluit genomen. Daar wil ik het bij laten.
+
+Mijn excuses, mijnheer Hänsch en mijnheer Cox, ik had niet in de gaten dat u om het woord vroeg. Ik denk dat de stellingname in de notulen zal worden weergegeven. Bij de goedkeuring van notulen van de vergadering van vandaag kunnen de collega's die vinden dat de standpunten niet goed zijn weergegeven, een verzoek tot wijziging indienen. Ik denk dat dit een goede oplossing is. Uiteraard zal in de notulen van de vergadering van morgen rekening gehouden worden met al deze aanvullende verklaringen. Ik denk dat dit beter is dan nu stemverklaringen af te leggen. We zouden dan immers teveel afdwalen. Mijnheer Cox en mijnheer Hänsch, kunt u zich in mijn voorstel vinden?
+
+Mevrouw de Voorzitter, als het stemgedrag van mijn fractie correct is weergegeven, zal en kan ik hiertegen geen bezwaar maken. Indien uw besluit is dat ik geen stemverklaring mag afleggen, dan accepteer ik dat, zij het onder voorbehoud.
+
+We zullen dus heel goed opletten bij het opstellen van de notulen. Dat doen we trouwens altijd al. Als de standpunten niet goed in de notulen worden weergegeven, kunnen deze eventueel worden aangepast.
+(Het Parlement neemt de aldus gewijzigde agenda aan)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/pt.test b/tika-core/src/test/resources/org/apache/tika/language/pt.test
new file mode 100644
index 0000000000..58c7e05060
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/pt.test
@@ -0,0 +1,105 @@
+Reinício da sessão
+Declaro reaberta a sessão do Parlamento Europeu, que tinha sido interrompida na sexta-feira, 17 de Dezembro último, e renovo todos os meus votos, esperando que tenham tido boas férias.
+Como puderam constatar, o grande "bug do ano 2000" não aconteceu. Em contrapartida, os cidadãos de alguns dos nossos países foram vítimas de catástrofes naturais verdadeiramente terríveis. Os senhores manifestaram o desejo de se proceder a um debate sobre o assunto nos próximos dias, durante este período de sessões. Entretanto, gostaria - como também me foi pedido por um certo número de colegas - que observássemos um minuto de silêncio por todas as vítimas, nomeadamente das tempestades, nos diferentes países da União Europeia que foram afectados. Convido-os a levantarem-se para um minuto de silêncio.
+(O Parlamento, de pé, guarda um minuto de silêncio)
+
+Senhora Presidente, intervenho para um ponto de ordem. Certamente que já tomou conhecimento, pelas notícias transmitidas na imprensa e na televisão, dos diversos atentados à bomba e assassínios perpetrados no Sri Lanka. Uma das pessoas recentemente assassinadas foi o senhor Kumar Ponnambalam, que ainda há poucos meses visitara o Parlamento Europeu. Será que a senhora Presidente poderia enviar uma carta à Presidente do Sri Lanka manifestando o pesar do Parlamento por esta e outras mortes violentas perpetradas no seu país, e instandoa a envidar todos os esforços ao seu alcance para procurar obter uma reconciliação pacífica na situação extremamente difícil que ali se vive?
+
+Sim, Senhor Deputado Evans, penso que uma iniciativa no sentido que acaba de sugerir seria perfeitamente adequada. Se a assembleia estiver de acordo, farei como sugeriu o senhor deputado Evans.
+
+Senhora Presidente, intervenho para um ponto de ordem. Nos termos do artigo 143º do Regimento, gostaria que me desse o seu parecer em relação à inadmissibilidade de uma proposta. A questão que pretendo focar incide sobre um relatório que será aqui tratado na quintafeira, ocasião em que tenciono levantála novamente.
+O relatório Cunha sobre os resultados dos programas de orientação plurianuais para as frotas de pesca, inscrito na ordem do dia de quintafeira, contém, no seu nº 6, uma proposta no sentido da aplicação de sanções, sob a forma de uma redução automática das quotas, aos EstadosMembros que não cumpram anualmente os objectivos de redução da respectiva frota definidos nos programas de orientação plurianuais. Mais se propõe que a aplicação das sanções seja feita independentemente da salvaguarda do princípio da estabilidade relativa. O princípio da estabilidade relativa constitui, em minha opinião, um princípio jurídico fundamental da política comum da pesca, pelo que toda e qualquer proposta que vise subvertêlo é, com certeza, juridicamente inadmissível. Gostaria de saber se posso levantar uma objecção deste tipo ao que constitui meramente um relatório, não uma proposta legislativa, e se tenho competência para o fazer na quintafeira.
+
+Com efeito, é precisamente nessa altura que, se o desejar, poderá levantar a questão, isto é, na quinta-feira antes do início da apresentação do relatório.
+
+Senhora Presidente, coincidindo com a primeira sessão deste ano do Parlamento Europeu, nos Estados Unidos, no Texas, está marcada, lamentavelmente para a próxima quinta-feira, a execução de um condenado à morte, um jovem de 34 anos a quem designaremos por X.
+A pedido de um deputado francês, o senhor deputado Zimeray, já foi apresentada uma petição, que teve muitos signatários, entre os quais o abaixo assinado, mas peçolhe, em conformidade com a orientação repetidamente expressa pelo Parlamento Europeu e por toda a Comunidade Europeia, que intervenha, com o prestígio do seu cargo e da Instituição que representa, junto do Presidente e do Governador do Texas, Bush, que tem poder para suspender a condenação à morte e perdoar o condenado.
+E tudo isso em conformidade com os princípios que sempre defendemos.
+
+Obrigada, Senhor Deputado Segni, fá-lo-ei de boa vontade. Com efeito, essa é a linha das posições que o nosso Parlamento sempre adoptou.
+
+Senhora Presidente, gostaria de chamar a sua atenção para um caso de que este Parlamento repetidamente se tem ocupado. É o caso de Alexander Nikitin. Congratulamo-nos todos aqui pelo facto de o tribunal o ter posto em liberdade e ter tornado claro que também na Rússia o acesso às informações sobre o ambiente constitui direito constitucional. No entanto, sucede agora que ele deverá será novamente acusado, uma vez que o Ministério Público irá interpor recurso. Sabemos e constatámolo realmente em muitíssimas resoluções - precisamente durante a última sessão plenária do ano passado - que aqui não se trata apenas de um caso jurídico e que é errado acusar Alexander Nikitin de crime e de traição, uma vez que nós, que somos afectados, podemos tirar proveito dos resultados por ele conseguidos. Estes resultados constituem a base do Programa Europeu de Defesa do Mar de Barents e, por esse motivo, peço-lhe que analise um projecto de carta que lhe expõe os factos mais importantes, e que, de acordo com as decisões do Parlamento, torne clara esta posição na Rússia.
+
+Sim, Senhora Deputada Schroedter, analisarei de boa vontade os factos relativos a essa questão, logo que receba a sua carta.
+
+ (NL) Senhora Presidente, em primeiro lugar, gostaria de a felicitar pelo facto de ter cumprido a sua palavra e de agora, neste primeiro período de sessões do novo ano, ter aumentado realmente muito o número de canais de televisão nos nossos gabinetes. Todavia, Senhora Presidente, não se fez aquilo que eu tinha pedido. É certo que há agora dois canais finlandeses e um português, mas continua a não haver um único canal holandês, como eu lhe tinha pedido, porque também os holandeses gostam de ver os noticiários, todos os meses, quando somos mandados para aqui, para este desterro. Queria, portanto, pedirlhe, uma vez mais, que tome a seu cargo fazer com que também recebamos um canal holandês.
+
+Senhora Deputada Plooij-van Gorsel, posso dizer-lhe que essa questão se encontra inscrita na ordem de trabalhos da reunião dos Questores de quartafeira. Será analisada, espero, num espírito construtivo.
+
+Senhora Presidente, podermeá dizer por que razão este Parlamento não respeita a legislação por si próprio aprovada em matéria de segurança e higiene? Por que razão não foi efectuado neste edifício onde nos encontramos qualquer ensaio sobre a qualidade do ar desde que fomos eleitos? Por que razão o nosso Comité da Segurança e Higiene não se reúne desde 1998? Porque não foi efectuado qualquer exercício de simulação de incêndio nos edifícios do Parlamento, quer em Bruxelas quer em Estrasburgo? Porque não se encontram afixadas instruções a seguir em caso de incêndio? Por que razão as escadas não foram melhoradas desde o meu acidente? Porque não são criadas zonas obrigatórias de não fumadores? Considero absolutamente vergonhoso o facto de não respeitarmos a legislação que nós próprios aprovámos.
+
+Senhora Deputada Lynne, tem toda a razão. Vou verificar se nada disso foi efectivamente feito. Submeterei também o problema ao Colégio dos Questores e estou certa de que os nossos Questores levarão a peito fazer com que respeitemos a regulamentação que, com efeito, aprovamos.
+
+ (ES) Senhora Presidente, a senhora deputada Díez González e eu próprio tínhamos apresentado algumas perguntas a respeito de certas opiniões da senhora Vice-presidente, senhora Comissária de Palacio, que tinham sido reproduzidas num jornal espanhol. Os serviços competentes não as incluíram na ordem do dia, por considerarem que já lhes tinha sido dada resposta numa sessão anterior.
+Rogo-lhe que reconsidere esta decisão, porque as coisas não se passaram assim. As perguntas a que tinha sido dada resposta anteriormente referiam-se à intervenção da senhora Comissária de Palacio em determinado dossier e não a essas declarações aparecidas no jornal ABC, no dia 18 do passado mês de Novembro.
+
+Cara colega, vamos verificar tudo isso. Confesso que, para já, as coisas me parecem um pouco confusas. Assim, vamos rever essa questão muito seriamente, para que tudo fique em ordem.
+
+Senhora Presidente, gostaria de saber se esta semana o Parlamento terá oportunidade de manifestar a sua inequívoca posição de descontentamento face à decisão, hoje tomada, de não renovar o embargo de armas destinadas à Indonésia, tendo em atenção que a grande maioria da assembleia apoiou o referido embargo quando este foi decretado. Perante a situação que se vive naquela região, a decisão hoje tomada de não renovar o embargo de armas é extremamente perigosa. O Parlamento deveria, pois, enviar um sinal inequívoco do seu descontentamento face à suspensão do embargo, uma vez que é essa a posição da grande maioria da assembleia. A recusa por parte dos EstadosMembros da União Europeia de renovar o embargo de armas destinadas à Indonésia é uma atitude irresponsável. Como já aqui foi afirmado, a situação que ali se vive é extremamente volátil. Existe, aliás, o risco de poder haver um golpe militar no futuro. Não sabemos exactamente o que ali se está a passar. Como é possível a UE permitir que os fabricantes europeus de armamentos obtenham lucros à custa das vidas de seres humanos inocentes?
+
+Seja como for, essa questão não figura, para já, entre os pedidos de aplicação do processo de urgência para a próxima quinta-feira.
+
+Ordem dos trabalhos
+Segue-se na ordem do dia a fixação da ordem de trabalhos. Foi distribuída a versão final do projecto de ordem do dia do presente período de sessões, elaborada pela Conferência dos Presidentes, reunida na quinta-feira, 13 de Janeiro, nos termos do artigo 110º do Regimento. Relativamente a segunda e terça-feiras, não foram apresentados pedidos de modificação.
+Quarta-feira:
+O Grupo do Partido dos Socialistas Europeus pede a inclusão de uma declaração da Comissão sobre os seus objectivos estratégicos para os próximos cinco anos, bem com o sobre a reforma administrativa da Comissão.
+Gostaria que o senhor deputado Barón Crespo, autor do pedido, interviesse para o justificar, caso pretenda, evidentemente. Em seguida, faremos como é costume: ouviremos um orador a favor e um orador contra.
+
+ (ES) Senhora Presidente, a apresentação do programa político da Comissão Prodi para toda a legislatura foi inicialmente uma proposta do Grupo do Partido dos Socialistas Europeus, que, em Setembro, conseguiu a unanimidade na Conferência dos Presidentes, bem como a aceitação explícita do Presidente da Comissão, Romano Prodi, que reiterou o seu compromisso no seu discurso de investidura.
+Este compromisso é importante na medida em que a Comissão é um organismo que, de acordo com os Tratados, detém o monopólio da iniciativa e que, portanto, determina fundamentalmente o que vai ser a actividade política e legislativa deste Parlamento nos próximos cinco anos. Recordo, além disso, Senhora Presidente, que, na anterior legislatura, este Parlamento deu, em duas ocasiões diferentes, o seu voto de confiança ao Presidente da Comissão, Romano Prodi, coisa que voltou a fazer em Julho, nesta legislatura. Mais tarde, já com a nova Comissão em funcionamento, voltou a dar um voto de confiança a toda a Comissão em Setembro. Já houve, portanto, tempo suficiente para a Comissão preparar o seu programa e para nós podermos tomar conhecimento dele e explanálo aos cidadãos. Neste sentido, recordo a resolução de 15 de Setembro, em que se recomendava a apresentação da proposta dentro do mais breve prazo possível.
+Os factos ocorridos na semana passada - que tiveram origem à margem da Conferência dos Presidentes, e que a utilizaram só para corroborar e ratificar decisões tomadas fora dela - criam um dilema: ou a Comissão não se encontra em condições de apresentar esse programa (e nesse caso conviria que o explicasse. Segundo as palavras da sua Presidente, porém, encontrase em condições de o fazer e dado que a Comissão se encontra representada pela Vicepresidente, senhora Comissária de Palacio, creio que antes de se proceder à votação seria conveniente conhecer a situação da Comissão relativamente à sua disponibilidade para apresentar o programa, tal como tinha sido acordado), ou então o Parlamento não se encontra em condições de examinar este programa como, aparentemente, alguns pretendem. Em minha opinião, esta segunda hipótese significaria o abandono das nossas responsabilidades como Parlamento, além de introduzir uma tese original, um método desconhecido que consiste em dar a conhecer por escrito aos grupos políticos o discurso pragmático da Comissão com uma semana de antecedência - e não no dia anterior, como se tinha acordado -, tendo em conta o facto de o programa legislativo ir ser discutido em Fevereiro, de modo que poderíamos prescindir do debate, porque no dia seguinte a imprensa e a Internet já o teriam dado a conhecer a todos os cidadãos, não tendo já o Parlamento motivo para se ocupar do assunto.
+Como o meu grupo é de opinião que um Parlamento foi feito para escutar, para debater e para reflectir, pensamos não haver motivo algum que justifique este adiamento. Cremos, além disso, que sim, que a Comissão se encontra em condições de o fazer, que estamos perfeitamente a tempo de poder restabelecer o acordo original entre o Parlamento e a Comissão e de proceder responsavelmente perante as nossas concidadãs e os nossos concidadãos. Logo, a proposta do Grupo do Partido dos Socialistas Europeus que a senhora mencionou é que se mantenha a apresentação na quartafeira do programa da legislatura da Comissão Prodi, incluindo neste programa também o projecto de reforma administrativa, porque, de outro modo, podemos vir a encontrarnos numa situação paradoxal: com a desculpa de não existir texto, negase, por um lado, ao Presidente da Comissão o direito de fazer uso da palavra neste Parlamento, e, por outro lado, a possibilidade de realização de um debate sobre a reforma sem que este Parlamento conheça previamente os textos em que se baseia. Rogolhe, portanto, Senhora Presidente, que peça à Comissão que se manifeste agora e que depois se proceda à votação.
+(Aplausos da bancada do Grupo PSE)
+
+Senhora Presidente, caros colegas, estou realmente um pouco estupefacto em relação à atitude do colega Barón Crespo, que exige agora que este ponto da ordem do dia seja inscrito na ordem do dia de quarta-feira.
+Senhor Deputado Barón Crespo, o senhor não pôde comparecer na passada quinta-feira à Conferência dos Presidentes. Não o critico por isso; de vez em quando acontece enviarmos um representante. O colega Hänsch representou-o nessa ocasião. Realizámos um exaustivo debate na Conferência dos Presidentes. Apenas o seu grupo defendeu a posição que o senhor agora defende. Procedemos seguidamente à votação. Cada presidente tem tantos votos quantos os membros do seu grupo. Teve lugar uma votação em relação a este ponto. Se bem me recordo, a votação teve o seguinte resultado: 422 votos contra 180 e umas poucas abstenções. Ou seja, todos os grupos, com a excepção dos Não-inscritos - mas esses nem sequer constituem grupo - chegaram a consenso; apenas o seu grupo defendia que se procedesse do modo que aqui propôs. Todos os restantes discordavam. Foi essa a decisão.
+Agora gostaria de dizer algo a respeito da matéria de fundo desta questão. Confiamos na Comissão, em Romano Prodi e a esmagadora maioria do nosso grupo depositou, como todos sabemos, a sua confiança em Romano Prodi e na Comissão, na sequência de um difícil processo. No entanto, somos também da opinião de que deveria haver um debate sobre esta estratégia da Comissão que seguisse um procedimento ordenado, e não só com base numa declaração oral pronunciada aqui no Parlamento Europeu, mas também com base num documento que seja decidido na Comissão e que apresente uma descrição deste programa para um período de cinco anos. Esse documento não existe!
+
+A Comissão irá apresentar em Fevereiro o programa para o ano 2000. Nós demos o nosso acordo, se a Comissão não quiser ainda elaborar o Programa para 2000 em Janeiro, então que o faça em Fevereiro. Votámos a favor. Não pretendemos entrar em conflito com a Comissão só por entrar, mas somos da opinião de que, se for possível, a Comissão e o Parlamento devem seguir um mesmo caminho. Todavia, enquanto Parlamento, somos também o órgão controlador da Comissão e nem tudo o que provém da Comissão tem de coincidir com a nossa opinião.
+Gostaria que nos pudéssemos preparar seriamente nos diferentes grupos para um debate sobre o programa para os próximos cinco anos. Não é possível prepararmo-nos se ouvirmos aqui falar de uma declaração e não soubermos qual o conteúdo dessa mesma declaração. Por esse motivo, sugerimos - e a minha impressão é que a Comissão também está aberta a estas considerações - que se agende para Fevereiro o debate sobre o programa a longo prazo da Comissão até ao ano 2005. Espero que a Comissão chegue a acordo, até essa data, relativamente a um programa que nos venha a propor, e sugerimos que, também em Fevereiro, realizemos o debate sobre o programa legislativo da Comissão para o ano 2000. É, portanto, também um contexto objectivo sério que nos aconselha a realizar conjuntamente o debate sobre os dois programas. Por isso, o meu grupo rejeita decididamente a proposta do Grupo do Partido dos Socialistas Europeus!
+(Aplausos do Grupo PPE-DE)
+
+Senhora Presidente, quero deixar bem claro que, acima de tudo, a Comissão tem o máximo respeito pelas decisões deste Parlamento e, entre elas, a de estabelecer a sua ordem do dia. Respeitamos, portanto, o que este Parlamento possa decidir nesse sentido.
+Quero, porém, deixar igualmente bem claro que o Presidente da Comissão, Romano Prodi, se comprometeu com o Parlamento a acrescentar um novo debate, como recordou o senhor deputado Barón Crespo, ao debate anual sobre o programa legislativo da Comissão, sobre as grandes linhas de actuação para o próximo período de cinco anos, quer dizer, para esta legislatura.
+Quero dizer, Senhora Presidente, que, no acordo a que se chegou no mês de Setembro, este debate se distinguia daquilo que constitui a apresentação anual do programa legislativo da Comissão. Quero dizer também, Senhora Presidente, que, por parte da Comissão, estamos preparados e dispostos a realizar esse debate quando for conveniente, que estávamos preparados para o realizar esta semana, como se tinha acordado inicialmente, partindo da base de que o programa seria apresentado na véspera, num discurso aos grupos parlamentares.
+Quero, portanto, Senhora Presidente, reiterar que, pela nossa parte, já discutimos o programa de actuação para os próximos cinco anos e que estamos preparados para, quando o Parlamento decidir - esta mesma semana, se for essa a sua decisão - vir expor aqui o programa para os próximos cinco anos, e, no mês que vem, o programa para o ano 2000, que era o que estava absolutamente combinado.
+
+Proponho que votemos o pedido do Grupo do Partido dos Socialistas Europeus que visa voltar a inscrever a declaração da Comissão sobre os seus objectivos estratégicos.
+(O Parlamento rejeita o pedido) Presidente. Ainda no que respeita ao dia de quartafeira, recebi uma outra proposta referente à pergunta oral relativa ao imposto sobre o capital. O Grupo do Partido Popular Europeu/Democratas Europeus pede que esse ponto seja retirado da ordem do dia.
+Algum colega pretende tomar a palavra em nome do grupo e justificar esse pedido?
+
+Senhora Presidente, estou a ouvir alguns risos da bancada do Grupo do Partido dos Socialistas Europeus, mas foi-me dito que também largos círculos do Grupo do Partido dos Socialistas Europeus teriam gostado de retirar este ponto da ordem do dia, visto que aquando da votação na Conferência dos Presidentes, o parecer do grupo de trabalho das colegas e dos colegas competentes do Grupo do Partido dos Socialistas Europeus não foi apresentado. Não sei se esta informação é correcta, mas nós, Grupo PPEDE, ficaríamos, em todo o caso, gratos se este ponto fosse retirado, uma vez que o Parlamento já se debruçou sobre esta questão várias vezes. Existem também decisões contra um imposto deste tipo. Por esse motivo, o meu grupo vem requerer a supressão deste ponto da ordem do dia.
+
+Obrigada, Senhor Deputado Poettering.
+Dou a palavra ao senhor deputado Wurtz, que intervirá contra este pedido.
+
+Senhora Presidente, antes de mais, gostaria de realçar a ausência de lógica do senhor deputado Poettering. Há pouco, pregou um sermão ao Grupo do Partido dos Socialistas Europeus porque este volta atrás numa decisão tomada muito claramente na Conferência dos Presidentes. Agora, faz a mesma coisa. Nós discutimos, fomos unânimes - à excepção do Grupo do Partido Popular Europeu/Democratas Europeus e do Grupo do Partido Europeu dos Liberais, Democratas e Reformistas - e eu cheguei mesmo a observar, como se recordarão, caros confrades presidentes, que a questão não é a de saber se estamos a favor ou contra a taxa de Todin, mas sim a de saber se ousamos ouvir o que a Comissão e o Conselho pensam dela. Não é pedir muito. Assim, reitero a proposta de se manter essa pergunta oral à Comissão e ao Conselho, a fim de conhecermos, de uma vez por todas, a posição daquelas duas instâncias perante esta proposta, relativamente modesta, mas que emitiria um sinal importante dirigido à opinião pública, sobretudo depois da emoção criada em torno do fracasso da Conferência de Seattle.
+
+Coloco à votação o pedido do Grupo do Partido Popular Europeu/Democratas Europeus, que visa retirar da ordem do dia a pergunta oral relativa ao imposto sobre o capital.
+(O Parlamento rejeita o pedido, com 164 votos a favor, 166 votos contra e 7 abstenções)
+
+Senhora Presidente, gostaria de agradecer ao senhor deputado Poettering a publicidade que acaba de dar a este debate. Obrigado.
+
+ (ES) Senhora Presidente, será que se contou o meu voto, que não pôde ser efectuado electronicamente, pelo facto de eu não ter o cartão? O meu voto era "a favor".
+
+Efectivamente, se juntarmos os dois colegas que se manifestaram, obteremos como resultado...
+
+ (ES) Senhora Presidente, a Presidência anunciou o resultado da votação. Não há lugar para mudanças.
+
+Caros colegas, mais uma vez, temos todos de trazer o cartão à segunda-feira. Estamos perante um problema. Por conseguinte, tenho de tomar uma decisão.
+Também eu me esqueci do meu cartão, e teria votado contra. Assim, considero que a pergunta oral se mantém inscrita na ordem do dia
+É a última vezes que contaremos os cartões esquecidos. Que fique bem claro e que se informe toda a gente.
+(Aplausos)Sim, a pergunta oral mantém-se na ordem do dia, e sim, a presidente tem o direito de votar, como também tem o direito de se esquecer do cartão.
+Vamos prosseguir com as outras modificações da ordem de trabalhos.
+
+Senhora Presidente, na votação anterior - e aceitarei a sua decisão nesta matéria - sobre a questão dos objectivos estratégicos da Comissão, informei que gostaria de, em nome do Grupo ELDR, usar da palavra antes da votação. Tal não se verificou. Solicitarlheia, pois, que, antes de passarmos ao próximo ponto da ordem do dia, me fosse permitido fazer uma declaração de voto em nome do meu grupo. Tratase de uma questão importante. Seria vantajoso para a reputação deste Parlamento declarar de que modo as pessoas interpretam o que acabamos de fazer à luz da sua própria análise política.
+
+Senhora Presidente, não pretendo relançar o debate, mas tinha também pedido a palavra para me pronunciar sobre o pedido do senhor deputado Barón Crespo. Também não me chamou. Lamento-o, mas já se procedeu à votação, a decisão foi tomada, portanto, esqueçamos o assunto.
+
+Peço muita desculpa, Senhor Deputado Hänsch e Senhor Deputado Cox, mas não vi que estavam a pedir a palavra. Dito isto, penso que as posições estão muito claras e que serão correctamente reproduzidas na acta. Quando amanhã aprovarmos a acta da sessão de hoje, os colegas que considerarem que as posições não foram suficientemente bem explicadas, podem pedir modificações. Penso que se trata de uma boa solução. Evidentemente que a acta da reunião de amanhã terá em conta todas as explicações suplementares. Creio ser uma solução melhor do que proceder agora a declarações de voto que nos levariam muito longe. Senhor Deputado Cox, Senhor Deputado Hänsch, estão de acordo?
+
+Senhora Presidente, se o resultado da votação reflectir correctamente o sentido de voto do meu grupo, não me posso opor ao mesmo, nem o farei. Se a sua decisão for no sentido de eu não poder fazer uma declaração de voto, terei de a aceitar, mas com reservas.
+
+Prestaremos portanto muita atenção à redacção da acta. Aliás, prestamos sempre. Se não reflectir bem as nossas posições, podemos sempre corrigi-la.
+(O Parlamento aprova a ordem de trabalhos assim modificada)
+
diff --git a/tika-core/src/test/resources/org/apache/tika/language/sv.test b/tika-core/src/test/resources/org/apache/tika/language/sv.test
new file mode 100644
index 0000000000..b43b5df038
--- /dev/null
+++ b/tika-core/src/test/resources/org/apache/tika/language/sv.test
@@ -0,0 +1,108 @@
+Återupptagande av sessionen
+Jag förklarar Europaparlamentets session återupptagen efter avbrottet den 17 december. Jag vill på nytt önska er ett gott nytt år och jag hoppas att ni haft en trevlig semester.
+Som ni kunnat konstatera ägde "den stora år 2000-buggen" aldrig rum. Däremot har invånarna i ett antal av våra medlemsländer drabbats av naturkatastrofer som verkligen varit förskräckliga. Ni har begärt en debatt i ämnet under sammanträdesperiodens kommande dagar. Till dess vill jag att vi, som ett antal kolleger begärt, håller en tyst minut för offren för bl.a. stormarna i de länder i Europeiska unionen som drabbats. Jag ber er resa er för en tyst minut.
+(Parlamentet höll en tyst minut.)
+
+Fru talman! Det gäller en ordningsfråga. Ni känner till från media att det skett en rad bombexplosioner och mord i Sri Lanka. En av de personer som mycket nyligen mördades i Sri Lanka var Kumar Ponnambalam, som besökte Europaparlamentet för bara några månader sedan. Skulle det vara möjligt för er, fru talman, att skriva ett brev till den srilankesiska presidenten i vilket parlamentets beklagande uttrycks över hans och de övriga brutala dödsfallen i Sri Lanka och uppmanar henne att göra allt som står i hennes makt för att få en fredlig lösning på en mycket komplicerad situation?
+
+Ja, herr Evans, jag tror att ett initiativ i den riktning ni just föreslagit skulle vara mycket lämpligt. Om kammaren instämmer skall jag göra som herr Evans föreslagit.
+
+Fru talman! Det gäller en ordningsfråga. Jag skulle vilja ha råd från er vad gäller artikel 143 om avvisning av ett ärende som otillåtligt. Min fråga har att göra med något som kommer att behandlas på torsdag och som jag då kommer att ta upp igen.
+Cunhas betänkande om de fleråriga utvecklingsprogrammen behandlas i parlamentet på torsdag och det innehåller ett förslag i punkt 6 om att något slag av kvoteringspåföljder bör införas för länder som misslyckas med att uppfylla sina årliga mål rörande minskning av flottorna. I betänkandet står det att detta bör göras trots principen om relativ stabilitet. Jag anser att principen om relativ stabilitet är en grundläggande rättsprincip inom den gemensamma fiskeripolitiken, och ett förslag som skulle undergräva den måste betraktas som rättsligt otillåtligt. Jag vill veta om jag kan göra en sådan invändning mot ett betänkande, som alltså inte är ett lagförslag, och om det är något som jag har behörighet att göra på torsdag.
+
+Det är faktiskt just vid det tillfället som ni, om ni vill, kan ta upp denna fråga, dvs. på torsdag innan betänkandet läggs fram.
+
+Fru talman! Under årets första sammanträdesperiod för Europaparlamentet bestämde man dessvärre i Texas i USA att nästa torsdag avrätta en dödsdömd, en ung man på 34 år som vi kan kalla Hicks.
+På uppmaning av en fransk parlamentsledamot, Zimeray, har redan en framställning gjorts, undertecknad av många, bland annat jag själv, men jag uppmanar er, i enlighet med de riktlinjer som Europaparlamentet och hela den europeiska gemenskapen alltid har hållit fast vid, att med all den tyngd ni har i kraft av ert ämbete och den institution ni företräder, uppmana Texas guvernör, Bush, att uppskjuta verkställigheten och att benåda den dömde.
+Detta är helt i linje med de principer som vi alltid har hävdat.
+
+Tack, herr Segni, det skall jag gärna göra. Det ligger faktiskt helt i linje med de ståndpunkter vårt parlament alltid antagit.
+
+Fru talman! Jag vill fästa er uppmärksamhet vid ett fall som parlamentet vid upprepade tillfällen har befattat sig med. Det gäller fallet Alexander Nikitin. Alla gläder vi oss åt att domstolen har friat honom och tydligt visat att tillgängligheten till miljöinformation är en konstitutionell rättighet även i Ryssland. Nu är det emellertid så att han skall åtalas på nytt i och med att allmänne åklagaren överklagar. Vi är medvetna om, vilket vi också - inte minst under förra årets sista plenarsammanträde - har kunnat konstatera i en lång rad beslut, att detta inte enbart är ett juridiskt fall och att det är fel att beskylla Alexander Nikitin för kriminalitet och förräderi, eftersom vi som berörda parter drar nytta av de resultat han har kommit fram till. Resultaten utgör grunden för de europeiska programmen för skydd av Barents hav, och därför ber jag er granska ett utkast till ett brev som skildrar de viktigaste fakta samt att i enlighet med parlamentsbesluten visa Ryssland denna ståndpunkt klart och tydligt.
+
+Ja, fru Schroedter, jag skall mycket gärna granska fakta rörande denna fråga när jag fått ert brev.
+
+Fru talman! Först skulle jag vilja ge er en komplimang för det faktum att ni hållit ert ord och att det nu, under det nya årets första sammanträdesperiod, faktiskt har skett en kraftig utökning av antalet TV-kanaler på våra rum. Men, fru talman, det som jag bad om har inte inträffat. Det finns nu visserligen två finska kanaler och en portugisisk, men det finns fortfarande ingen nederländsk kanal. Jag bad er om en nederländsk kanal, eftersom nederländare också gärna vill ta del av nyheterna varje månad då vi blir förvisade till den här platsen. Jag skulle således på nytt vilja be er att ombesörja att vi också får en nederländsk kanal.
+
+Fru Plooij-van Gorsel! Jag kan tala om för er att frågan finns på föredragningslistan för kvestorernas möte på onsdag. Jag hoppas att den kommer att granskas i en positiv anda.
+
+Fru talman! Kan ni berätta för mig varför detta parlament inte följer den arbetsskyddslagstiftning det faktiskt antar? Varför har det inte genomförts något luftkvalitetstest i denna byggnad efter denna mandatperiods början? Varför har inte arbetsskyddskommittén haft några sammanträden sedan 1998? Varför har det inte skett några brandövningar i parlamentets byggnader i Bryssel eller Strasbourg? Varför finns det inga instruktioner om hur man skall bete sig om det börjar brinna? Varför har inte trapporna byggts om efter den olycka jag råkade ut för? Varför upprätthåller man inte bestämmelserna om rökfria områden? Jag tycker det är skrämmande att vi antar lagstiftning som vi inte själva följer.
+(Applåder)
+
+Fru Lynne! Ni har helt rätt och jag skall kontrollera om allt detta faktiskt inte har gjorts. Jag skall också överlämna problemet till kvestorerna och jag är övertygad om att de är måna om att se till att vi respekterar de regler som vi faktiskt röstat fram.
+
+Fru talman! Díez González och jag har ställt några frågor angående vissa av vice ordförande de Palacios åsikter som återgavs i en spansk dagstidning. De ansvariga har inte tagit med dessa frågor på föredragningslistan, eftersom man ansåg att dessa hade besvarats vid ett tidigare sammanträde.
+Jag ber att man omprövar det beslutet, eftersom så inte är fallet. De frågor som tidigare besvarats handlade om de Palacios inblandning i ett särskilt ärende, inte om de uttalanden som återgavs i dagstidningen ABC den 18 november i fjol.
+
+Kära kollega! Vi skall kontrollera allt detta. Jag erkänner att för närvarande förefaller saker och ting litet oklara. Vi skall alltså se över detta mycket noga så allt blir i sin ordning.
+
+Fru talman! Jag vill veta om det kommer att gå ut ett tydligt budskap från parlamentet under veckan om vårt missnöje rörande dagens beslut om att vägra en förnyelse av vapenembargot mot Indonesien, med hänsyn till att det stora flertalet i detta parlament har stött vapenembargot mot Indonesien? Dagens beslut att inte förnya embargot är oerhört farligt med hänsyn till situationen där. Parlamentet bör alltså sända ut ett budskap, eftersom detta är vad det stora flertalet vill. Det är oansvarigt av EU:s medlemsstater att vägra att förnya embargot. Som olika personer har sagt, är situationen där oerhört turbulent. Det finns faktiskt en risk för en framtida militärkupp. Vi vet inte vad som händer. Så varför skall vapentillverkarna i EU profitera på oskyldiga människors bekostnad?
+(Applåder)
+
+I vilket fall som helst är frågan för närvarande inte föremål för någon begäran om brådskande förfarande på torsdag.
+
+Arbetsplan
+Nästa punkt på föredragningslistan är fastställande av arbetsplanen. Det slutgiltiga förslaget till föredragningslista som utarbetats av talmanskonferensen vid sammanträdet den 13 januari i enlighet med artikel 110 i arbetsordningen har delats ut. För måndag och tisdag har inga ändringar föreslagits.
+Beträffande onsdag:
+Den socialistiska gruppen har begärt att ett uttalande från kommissionen om dess strategiska mål för de fem kommande åren samt om kommissionens administrativa reform skall tas upp.
+Jag skulle vilja att Barón Crespo, som lämnat begäran, uttalar sig för att motivera den, om han vill, naturligtvis. Sedan gör vi som vi brukar: vi lyssnar till en talare för och en talare emot.
+
+Fru talman! Framläggandet av kommission Prodis politiska program för hela mandatperioden bottnar i ett förslag från Europeiska socialdemokratiska partiets grupp som antogs med enhällighet på talmanskonferensen i september samt ett tydligt godkännande från ordförande Prodi som upprepade detta åtagande i sitt anförande i samband med tillträdandet av sitt ämbete.
+Detta åtagande är viktigt, med tanke på att kommissionen är det organ som enligt fördragen har ensam initiativrätt, och det utgör därför grunden till parlamentets politiska och lagstiftande verksamhet de kommande fem åren. Jag vill dessutom, fru talman, påminna om att parlamentet vid två tillfällen under föregående mandatperiod röstade om förtroendet för ordförande Prodi; man röstade på nytt om detta under denna mandatperiod i juli, och sedan, när den nya kommissionen hade påbörjat sitt arbete, gav man i september en förtroenderöst till hela kommissionen. Därför har det funnits tillräckligt mycket tid för kommissionen att förbereda sitt program och för att oss att ta del av detta och redogöra för detta inför medborgarna. Jag vill också påminna om resolutionen av den 15 september, där man rekommenderade att förslaget skulle läggas fram så snart som möjligt.
+Det som hände förra veckan - något som inleddes utanför talmanskonferensen, en konferens som endast utnyttjades för att bestyrka och bekräfta det beslut som fattats utanför ramarna för denna - utgör ett dilemma: antingen är det så att kommissionen inte är i stånd att presentera programmet (i sådant fall bör den klargöra detta. Enligt ordförandens uttalanden kan man presentera programmet. Med tanke på att kommissionen företräds av vice ordförande de Palacio, anser jag att vi innan omröstningen sker bör få veta huruvida kommissionen är beredd att lägga fram programmet, så som man kommit överens om); annars är parlamentet inte i stånd att granska programmet, så som vissa tycks anse. Enligt min uppfattning skulle den sistnämnda hypotesen innebära att vi försummade vårt ansvar som parlament, förutom att man då skulle införa en grundtes, en okänd metod som innebär att de politiska grupperna skriftligen får ta del av kommissionens tankar kring programmet en vecka i förväg i stället för en dag i förväg, som man kommit överens om. Då bör man tänka på att lagstiftningsprogrammet skall debatteras i februari, och därför skulle vi lika gärna kunna avstå från den debatten, för pressen och Internet skulle redan dagen därpå tillkännage programmet för alla medborgare, och det skulle inte längre finnas någon anledning för parlamentet att ägna sig åt frågan.
+Eftersom min grupp anser att parlamentet är till för att lyssna, för att debattera och för att reflektera, anser vi att det inte finns något som rättfärdigar en senareläggning av debatten, och om kommissionen är beredd till det, menar vi att det fortfarande är möjligt att återupprätta det ursprungliga avtalet mellan parlamentet och kommissionen och agera på ett ansvarsfullt sätt gentemot våra medborgare. Därför innebär förslaget från Europeiska socialdemokratiska partiets grupp, som fru talmannen nämnde, att kommission Prodis lagstiftningsprogram läggs fram på onsdag som planerat, och att man inbegriper förslaget om en administrativ reform, för i annat fall kan en paradoxal situation uppstå: å ena sidan vägras kommissionens ordförande, med ursäkten att det inte finns något dokument, rätten att tala i parlamentet, å andra sidan omöjliggörs en debatt om reformen, eftersom parlamentet inte tidigare har fått ta del av dokumenten i fråga. Därför ber jag, fru talman, att ni uppmanar kommissionen att uttala sig och att vi därefter går till omröstning.
+(Applåder från PSE)
+
+Fru talman, ärade kolleger! Jag måste säga att jag är något förvånad över kollegan Barón Crespos agerande när han nu kräver att denna punkt på föredragningslistan flyttas till onsdagen.
+Herr Barón Crespo! Ni kunde inte närvara vid talmanskonferensen förra torsdagen. Det tänker jag inte kritisera: det händer alltid att man har en ställföreträdare. Kollegan Hänsch var där och företrädde er. Vi förde en grundlig debatt på talmanskonferensen. Det var bara er egen grupp som förespråkade det ni nu talar om. Därefter röstade vi. Varje ordförande har ju lika många röster som hans eller hennes grupp har medlemmar. Det röstades på denna punkt. Omröstningen resulterade vad jag kan minnas i följande siffror: 422 röster mot 180, med några få nedlagda röster. Detta betyder att alla grupper, med undantag för de grupplösa - men de är ju heller ingen grupp - var överens, och endast er grupp ansåg att man borde förfara på det sätt som ni har föreslagit här. Alla andra var av en annan åsikt. Sådant blev beslutet.
+Nu vill jag själv säga något i ämnet. Vi hyser förtroende för kommissionen, för Romano Prodi, och en mycket stor majoritet av vår grupp uttalade sitt förtroende för Romano Prodi och kommissionen efter en, som alla vet, svår process. Men vi anser också att vi måste föra en debatt om kommissionens strategi under ordnade former, inte bara utifrån ett muntligt uttalande här i Europaparlamentet utan också från ett dokument som kommissionen har beslutat om och som beskriver programmet för fem år framöver. Något sådant dokument existerar inte!
+(Applåder)
+I februari skall kommissionen lägga fram programmet för år 2000. Vi har sagt att detta går för sig, om kommissionen inte vill göra klart program 2000 redan i januari, då gör vi det i februari. Det har vi sagt ja till. Vi vill ju för den delen inte gräla med kommissionen utan anser att kommission och parlament så långt det är möjligt skall gå samma väg. Men samtidigt är vi som parlament kontrollinstans gentemot kommissionen. Och allt som kommer från kommissionen behöver inte nödvändigtvis vara vår åsikt.
+Jag vill att vi inom grupperna skall kunna förbereda oss på ett klokt sätt inför en debatt om femårsprogrammet. Man kan inte förbereda sig genom att sitta här och lyssna på ett uttalande utan att alls veta vad som ligger bakom ett sådant uttalande. Därför rekommenderar vi - och jag har intrycket att kommissionen likaledes är öppen för den tanken - att debatten om kommissionens långsiktiga arbete fram till år 2000 förs nu i februari - jag hoppas också att kommissionen till dess har kommit överens om ett program att föreslå - och att vi samtidigt i februari kan debattera kommissionens lagstiftningsprogram för år 2000. Det är sålunda även av förnuftiga och sakliga skäl som vi bör debattera bägge programmen samtidigt. Därför tillbakavisar min grupp å det bestämdaste den socialistiska gruppens förslag!
+(Applåder från PPE-DE-gruppen)
+
+Fru talman! Jag vill i första hand klargöra att kommissionen hyser den största respekt för parlamentets beslut, och därmed även för beslutet om fastställandet av arbetsplanen. Vi respekterar således i det avseendet parlamentets beslut. Samtidigt vill jag klargöra att ordförande Prodi har lovat parlamentet ytterligare en debatt, precis som Barón påpekade, förutom den årliga debatten om kommissionens lagstiftningsprogram, en debatt om de viktigaste handlingslinjerna under den kommande femårsperioden, det vill säga under denna mandatperiod.
+Det jag vill säga, fru talman, är att man i den överenskommelse som uppnåddes i september, gjorde en åtskillnad mellan den debatten och framställandet av kommissionens årliga lagstiftningsprogram. Och jag vill också, fru talman, säga att vi från kommissionens sida är förberedda och färdiga för denna debatt när än det må vara, att vi är redo att hålla debatten denna vecka, så som man i princip avtalade, med tanke på att utkastet redan har presenterats i ett anförande inför de parlamentariska grupperna.
+Därför, fru talman, vill jag än en gång påpeka att vi för vår del har diskuterat igenom åtgärdsprogrammet för de kommande fem åren, och att vi är redo att, när som helst då parlamentet beslutar det, - den här veckan om man bestämmer sig för det - komma och presentera programmet för de kommande fem åren, och sedan nästa månad, programmet för år 2000, precis som avtalat.
+
+Jag föreslår att vi röstar om begäran från den socialistiska gruppen att på nytt föra upp kommissionens uttalande om dess strategiska mål på föredragningslistan.
+(Parlamentet avslog begäran.) Talmannen. Beträffande onsdagen har jag också mottagit ett annat förslag beträffande den muntliga frågan om kapitalskatt. PPE-DE-gruppen begär att denna punkt skall strykas från föredragningslistan.
+Vill någon kollega begära ordet för gruppens räkning och motivera denna begäran?
+
+Fru talman! Eftersom jag hör att det skrattas bland socialisterna: man har sagt mig att även vida kretsar inom den socialistiska gruppen gärna vill se den här punkten avförd från föredragningslistan, eftersom det vid omröstningen på talmanskonferensen saknades votum för berörda kolleger i den socialistiska arbetsgruppen. Jag vet inte huruvida denna information stämmer, men vi i PPE-DE-gruppen vore i alla fall tacksamma ifall punkten ströks, då ju parlamentet redan har befattat sig med frågan flera gånger. Det finns också beslut fattade mot en sådan skatt. Därför yrkar min grupp på att punkten avförs från föredragningslistan.
+
+Tack, herr Poettering.
+Vi skall nu lyssna till Wurtz som skall uttala sig emot denna begäran.
+
+Fru talman! Jag skulle till att börja med vilja understryka Poetterings bristande logik. Han har just läxat upp den socialistiska gruppen för att den ändrat sig när det gäller ett beslut som fattats med mycket liten marginal i talmanskonferensen. Men han gör samma sak själv. Vi diskuterade och var eniga, utom PPE-gruppen och den liberala gruppen, och jag noterade t.o.m., det minns ni säkert kära ordförandekolleger, att frågan inte handlar om huruvida ni är för eller emot Todinskatten, utan om ni vågar höra vad kommissionen och rådet tycker om den. Det är inte för mycket begärt. Jag upprepar därför förslaget att behålla denna muntliga fråga till kommissionen och rådet för att en gång för alla få veta vilken inställning dessa två instanser har till denna relativt blygsamma begäran, som ändå skulle utgöra en viktig signal till allmänheten, särskilt med tanke på den oro som uppstod efter den misslyckade konferensen i Seattle.
+
+Vi skall rösta om begäran från PPE-DE-gruppen som syftar till att stryka den muntliga frågan om kapitalskatt från föredragningslistan.
+(Parlamentet avslog begäran med 164 röster för, 166 emot. 7 ledamöter avstod från att rösta.)
+
+Fru talman! Jag skulle vilja tacka Poettering för att han just gjort reklam för denna debatt. Tack.
+
+Fru talman! Jag undrar om även min röst har räknats, trots att den inte kunde avges på elektronisk väg, eftersom jag inte har något kort? Jag röstade "för".
+
+Om man lägger till de två kolleger som yttrat sig blir resultatet...
+
+Fru talman! Ordförandeskapet har redan meddelat resultatet från omröstningen. Det finns inget utrymme för några ändringar.
+(Applåder)
+
+Kära kolleger! Ännu en gång vill jag påpeka att alla måste ha sitt kort på måndagen. Det är tydligt att vi har ett problem här. Jag måste därför fatta ett beslut.
+Jag har också glömt mitt kort och jag skulle ha röstat emot. Jag anser därför att den muntliga frågan kvarstår på föredragningslistan.
+(Applåder) Det är sista gången vi tar hänsyn till att ni glömt korten. Jag hoppas att alla har förstått och vi skall se till att alla får veta det.
+(Applåder)
+Ja, den munliga frågan kvarstår på föredragningslistan och, ja, talmannen har rätt att rösta, liksom hon har rätt att också glömma sitt kort.
+Vi fortsätter nu med övriga ändringar i föredragningslistan.
+
+Fru talman! Under den tidigare omröstningen - och jag kommer att följa ert utslag i denna fråga - rörande frågan om kommissionens strategiska plan, sade jag att jag ville uttala mig före omröstningen på min grupps vägnar. Så blev inte fallet. Jag skulle uppskatta om jag vid denna punkts avslutande kunde få avge en röstförklaring på min grupps vägnar. Detta är en viktig fråga. Det skulle vara användbart för kammarens räkning att upplysa om hur folk uppfattar vad vi just gjort mot bakgrund av deras egen politiska analys.
+
+Fru talman! Jag skall inte ta upp debatten på nytt, men även jag hade begärt ordet för att ta ställning till herr Barón Crespos begäran. Ni lät mig aldrig komma till tals. Det beklagar jag, men omröstningen har genomförts, beslutet har fattats, alltså får det vara.
+
+Jag är ledsen, herr Hänsch och herr Cox, jag såg inte att ni hade begärt ordet. Jag tror ändå att ståndpunkterna är tydliga och de kommer att bekräftas i protokollet. När vi i morgon justerar protokollet från dagens sammanträde kan de kolleger, som då anser att ståndpunkterna inte förklarats tillräckligt tydligt, begära ändringar. Jag tror att det är ett bra sätt. Naturligtvis kommer man i protokollet från morgondagens sammanträde att ta hänsyn till alla kompletterande förklaringar. Jag tror att det är bättre än att nu genomföra röstförklaringar som kommer att leda mycket långt. Vad säger ni om det, herr Cox och herr Hänsch?
+
+Fru talman! Om omröstningsregistreringen på ett korrekt sätt visar hur min grupp röstade, skall jag och kan jag inte protestera mot denna. Om ert utslag innebär att jag inte kan avge en röstförklaring, accepterar jag detta men med reservation.
+
+Vi skall alltså vara mycket noggranna vid upprättandet av protokollet. Det är vi för övrigt alltid. Om det inte återger ståndpunkterna tillfredsställande, kan vi eventuellt ändra i det.
+(Arbetsplanen fastställdes med dessa ändringar.)
+