USTC-KnowledgeComputingLab
diff --git a/‎parsers/docx_parser.py‎
Lines changed: 68 additions & 20 deletions b/‎parsers/docx_parser.py‎
Lines changed: 68 additions & 20 deletions
diff --git a/‎parsers/excel_parser.py‎
Lines changed: 79 additions & 41 deletions b/‎parsers/excel_parser.py‎
Lines changed: 79 additions & 41 deletions
@@ -74,31 +74,64 @@ async def parse(self, file_path: Path) -> DocumentData:
             result = await loop.run_in_executor(None, self._converter.convert, file_path)
             doc_data = result.document
 
-            title = self._extract_title(doc_data)
-            images = self._extract_images(doc_data.pictures)
-            tables = self._extract_tables(doc_data.tables)
-            texts = self._extract_texts(doc_data.texts)
+            # 并行处理不同类型的内容
+            document_data = await self._process_content_parallel(doc_data)
 
             processing_time = time.time() - start_time
+            document_data.processing_time = processing_time
             logger.info(f"Successfully parsed DOCX: {file_path} (took {processing_time:.2f}s)")
-            return DocumentData(
-                title=title,
-                texts=texts,
-                tables=tables,
-                images=images,
-                processing_time=processing_time,
-                success=True
-            )
+            return document_data
 
         except Exception as e:
-            processing_time = time.time() - start_time
-            error_msg = f"Failed to parse DOCX file {file_path}: {type(e).__name__}: {e}"
-            logger.exception(error_msg)  # 记录完整堆栈
-            return DocumentData(
-                success=False,
-                error_message=str(e),
-                processing_time=processing_time
-            )
+            raise Exception(f"Failed to parse DOCX file {file_path}") from e
+
+    async def _process_content_parallel(self, doc_data: DoclingDocument) -> DocumentData:
+        """并行处理文档内容"""
+        # 创建任务列表
+        tasks = []
+
+        # 添加图片处理任务
+        if doc_data.pictures:
+            tasks.append(self._extract_images_async(doc_data.pictures))
+
+        # 添加表格处理任务
+        if doc_data.tables:
+            tasks.append(self._extract_tables_async(doc_data.tables))
+
+        # 添加文本处理任务
+        if doc_data.texts:
+            tasks.append(self._extract_texts_async(doc_data.texts))
+
+        # 并行执行所有任务
+        results = await asyncio.gather(*tasks, return_exceptions=True)
+
+        # 处理结果
+        images: list[ChunkData] = []
+        tables: list[ChunkData] = []
+        texts: list[ChunkData] = []
+
+        for i, result in enumerate(results):
+            if isinstance(result, Exception):
+                logger.error(f"Error processing content type {i}: {result}")
+                continue
+            if isinstance(result, list):
+                if result and result[0].type == ChunkType.IMAGE:
+                    images = result
+                elif result and result[0].type == ChunkType.TABLE:
+                    tables = result
+                elif result and result[0].type == ChunkType.TEXT:
+                    texts = result
+
+        # 提取标题
+        title = self._extract_title(doc_data)
+
+        return DocumentData(
+            title=title,
+            texts=texts,
+            tables=tables,
+            images=images,
+            success=True
+        )
 
     def _extract_images(self, pictures: list[PictureItem]) -> list[ChunkData]:
         """提取文档中的图片
@@ -213,3 +246,18 @@ def _extract_texts(self, texts:list[TitleItem|SectionHeaderItem|ListItem|CodeIte
                         )
                     )
         return text_items
+
+    async def _extract_images_async(self, pictures: list[PictureItem]) -> list[ChunkData]:
+        """异步提取文档中的图片"""
+        loop = asyncio.get_event_loop()
+        return await loop.run_in_executor(None, self._extract_images, pictures)
+
+    async def _extract_tables_async(self, tables: list[TableItem]) -> list[ChunkData]:
+        """异步提取文档中的表格"""
+        loop = asyncio.get_event_loop()
+        return await loop.run_in_executor(None, self._extract_tables, tables)
+
+    async def _extract_texts_async(self, texts: list[TitleItem|SectionHeaderItem|ListItem|CodeItem|FormulaItem|TextItem]) -> list[ChunkData]:
+        """异步提取文档中的文本"""
+        loop = asyncio.get_event_loop()
+        return await loop.run_in_executor(None, self._extract_texts, texts)
@@ -5,8 +5,10 @@
 包括表格数据提取和图片处理。
 """
 
+import asyncio
 import base64
 import json
+import logging
 import time
 import warnings
 from dataclasses import dataclass
@@ -37,6 +39,7 @@
 CellValue = str|int|float|bool|None|datetime|date
 TableData = list[list[CellValue]]
 
+logger = logging.getLogger(__name__)
 
 @dataclass
 class ExcelParseConfig:
@@ -79,53 +82,88 @@ async def parse(self, file_path: Path) -> DocumentData:
 
         try:
             # 初始化内容列表和图片列表
-            texts: list[ChunkData] = []
-            tables: list[ChunkData] = []
-            images: list[ChunkData] = []
 
             # 加载工作簿
             workbook = self._load_workbook(file_path)
 
-            # 处理每个工作表
-            for sheet_index, sheet_name in enumerate(workbook.sheetnames):
-                sheet = workbook[sheet_name]
-
-                # 添加工作表标题
-                texts.append(ChunkData(
-                    type=ChunkType.TEXT,
-                    name=sheet_name,
-                    content=TextDataItem(
-                        text=f"工作表 {sheet_index + 1}: {sheet_name}",
-                    ),
-                ))
-
-                # 处理图片
-                sheet_images = self._extract_sheet_images(sheet)
-                images.extend(sheet_images)
-
-                # 处理表格数据
-                table_content = self._extract_table_data(sheet)
-                tables.append(ChunkData(
-                    type=ChunkType.TABLE,
-                    name=f"#/tables/{sheet_index}",
-                    content=table_content
-                ))
+            # 并行处理每个工作表
+            document_data = await self._process_sheets_parallel(workbook, file_path)
+
             processing_time = time.time() - start_time
-            return DocumentData(
-                title=Path(file_path).stem,
-                texts=texts,
-                tables=tables,
-                images=images,
-                processing_time=processing_time,
-                success=True
-            )
+            document_data.processing_time = processing_time
+            return document_data
         except Exception as e:
-            processing_time = time.time() - start_time
-            return DocumentData(
-                success=False,
-                error_message=str(e),
-                processing_time=processing_time
-            )
+            raise Exception(f"Failed to parse Excel file {file_path}: {type(e).__name__}: {e}") from e
+
+    async def _process_sheets_parallel(self, workbook: Workbook, file_path: Path) -> DocumentData:
+        """并行处理所有工作表"""
+        # 创建任务列表
+        tasks = []
+
+        for sheet_index, sheet_name in enumerate(workbook.sheetnames):
+            sheet = workbook[sheet_name]
+            tasks.append(self._process_sheet_async(sheet, sheet_index, sheet_name))
+
+        # 并行执行所有工作表处理任务
+        if tasks:
+            results = await asyncio.gather(*tasks)
+
+            # 合并结果
+            texts: list[ChunkData] = []
+            tables: list[ChunkData] = []
+            images: list[ChunkData] = []
+
+            for result in results:
+                if result:
+                    texts.extend(result.get('texts', []))
+                    tables.extend(result.get('tables', []))
+                    images.extend(result.get('images', []))
+
+        return DocumentData(
+            title=Path(file_path).stem,
+            texts=texts,
+            tables=tables,
+            images=images,
+            success=True
+        )
+
+    async def _process_sheet_async(self, sheet: Worksheet, sheet_index: int, sheet_name: str) -> dict|None:
+        """异步处理单个工作表"""
+        try:
+            loop = asyncio.get_event_loop()
+
+            # 并行处理图片和表格
+            image_task = loop.run_in_executor(None, self._extract_sheet_images, sheet)
+            table_task = loop.run_in_executor(None, self._extract_table_data, sheet)
+
+            # 等待两个任务完成
+            sheet_images, table_content = await asyncio.gather(image_task, table_task)
+
+            # 添加工作表标题
+            texts = [ChunkData(
+                type=ChunkType.TEXT,
+                name=sheet_name,
+                content=TextDataItem(
+                    text=f"工作表 {sheet_index + 1}: {sheet_name}",
+                ),
+            )]
+
+            # 创建表格数据
+            tables = [ChunkData(
+                type=ChunkType.TABLE,
+                name=f"#/tables/{sheet_index}",
+                content=table_content
+            )] if table_content else []
+
+            return {
+                'texts': texts,
+                'tables': tables,
+                'images': sheet_images
+            }
+
+        except Exception as e:
+            logger.error(f"Error processing sheet {sheet_name}: {e}")
+            return None
 
     def _load_workbook(self, excel_path: Path) -> Workbook:
         """