Future-House · NISH1001 · Nov 14, 2023 · Nov 14, 2023
diff --git a/dev-requirements.txt b/dev-requirements.txt
@@ -7,3 +7,4 @@ pymupdf
 build
 types-requests
 numpy
+unstructured==0.10.30
diff --git a/paperqa/readers.py b/paperqa/readers.py
@@ -2,6 +2,7 @@
 from typing import List
 
 from html2text import html2text
+from langchain.document_loaders import UnstructuredWordDocumentLoader
 from langchain.text_splitter import TokenTextSplitter
 
 from .types import Doc, Text
@@ -125,6 +126,21 @@ def parse_code_txt(path: Path, doc: Doc, chunk_chars: int, overlap: int) -> List
     return texts
 
 
+def parse_docx(
+    path: Path,
+    doc: Doc,
+    chunk_chars: int,
+    overlap: int,
+) -> List[Text]:
+    docs = UnstructuredWordDocumentLoader(path).load()
+    text_splitter = TokenTextSplitter(chunk_size=chunk_chars, chunk_overlap=overlap)
+    docs = text_splitter.split_documents(docs)
+    return [
+        Text(text=d.page_content, name=f"{doc.docname} chunk {i}", doc=doc)
+        for i, d in enumerate(docs)
+    ]
+
+
 def read_doc(
     path: Path,
     doc: Doc,
@@ -134,7 +150,7 @@ def read_doc(
 ) -> List[Text]:
     """Parse a document into chunks."""
     str_path = str(path)
-    if str_path.endswith(".pdf"):
+    if str_path.endswith((".pdf", ".PDF")):
         if force_pypdf:
             return parse_pdf(path, doc, chunk_chars, overlap)
         try:
@@ -145,5 +161,7 @@ def read_doc(
         return parse_txt(path, doc, chunk_chars, overlap)
     elif str_path.endswith(".html"):
         return parse_txt(path, doc, chunk_chars, overlap, html=True)
+    elif str_path.endswith(".docx"):
+        return parse_docx(path, doc, chunk_chars, overlap)
     else:
         return parse_code_txt(path, doc, chunk_chars, overlap)
diff --git a/setup.py b/setup.py
@@ -25,6 +25,8 @@
         "PyCryptodome",
         "html2text",
         "tiktoken>=0.4.0",
+        "python-docx>=1.1.0",
+        "unstructured>=0.10.30",
     ],
     test_suite="tests",
     long_description=long_description,