Libr-AI · haonan-li · May 12, 2024 · Apr 26, 2024 · Apr 26, 2024 · May 6, 2024
diff --git a/factcheck/__init__.py b/factcheck/__init__.py
@@ -29,6 +29,7 @@ def __init__(
         evidence_retrieval_model: str = None,
         claim_verify_model: str = None,
         api_config: dict = None,
+        num_seed_retries: int = 3,
     ):
         self.encoding = tiktoken.get_encoding("cl100k_base")
 
@@ -63,6 +64,7 @@ def __init__(
         self.query_generator = QueryGenerator(llm_client=self.query_generator_model, prompt=self.prompt)
         self.evidence_crawler = retriever_mapper(retriever_name=retriever)(api_config=self.api_config)
         self.claimverify = ClaimVerify(llm_client=self.claim_verify_model, prompt=self.prompt)
+        self.num_seed_retries = num_seed_retries
 
         logger.info("===Sub-modules Init Finished===")
 
@@ -73,15 +75,15 @@ def load_config(self, api_config: dict) -> None:
     def check_response(self, response: str):
         st_time = time.time()
         # step 1
-        claims = self.decomposer.getclaims(doc=response)
+        claims = self.decomposer.getclaims(doc=response, num_retries=self.num_seed_retries)
         for i, claim in enumerate(claims):
             logger.info(f"== response claims {i}: {claim}")
 
         # step 2
         (
             checkworthy_claims,
             pairwise_checkworthy,
-        ) = self.checkworthy.identify_checkworthiness(claims)
+        ) = self.checkworthy.identify_checkworthiness(claims, num_retries=self.num_seed_retries)
         for i, claim in enumerate(checkworthy_claims):
             logger.info(f"== Check-worthy claims {i}: {claim}")
 

diff --git a/factcheck/core/Retriever/serper_retriever.py b/factcheck/core/Retriever/serper_retriever.py
@@ -67,6 +67,7 @@ def _retrieve_evidence_4_all_claim(self, query_list: list[str], top_k: int = 5,
 
         # get the results for queries with an answer box
         query_url_dict = {}
+        url_to_date = {}
         _snippet_to_check = []
         for i, (query, result) in enumerate(zip(query_list, serper_response.json())):
             if query != result.get("searchParameters").get("q"):
@@ -85,13 +86,17 @@ def _retrieve_evidence_4_all_claim(self, query_list: list[str], top_k: int = 5,
                     }
             else:
                 results = result.get("organic", [])[:top_k]  # Choose top 5 result
-                merge_evidence_text = [f"Text: {_result['snippet']} \n Source: {_result['link']}" for _result in results]
-                merge_evidence_text = [re.sub(r"\n+", "\n", evidence) for evidence in merge_evidence_text]
+                merge_evidence_text = [
+                    f"Text: {_result['snippet']} \n Source: {_result['link']} \n Date: {_result.get('date', 'Unknown')}"
+                    for _result in results
+                ]
                 evidences[i] = {
                     "text": "\n\n".join(merge_evidence_text),
                     "url": "Multiple",
                 }
 
+                # Save date for each url
+                url_to_date.update({result.get("link"): result.get("date") for result in results})
                 # Save query-url pair, 1 query may have multiple urls
                 query_url_dict.update({query: [result.get("link") for result in results]})
                 _snippet_to_check += [result["snippet"] for result in results]
@@ -157,7 +162,7 @@ def bs4_parse_text(response, snippet, flag):
         for _query in query_snippet_dict.keys():
             _query_index = query_list.index(_query)
             _snippet_list = query_snippet_dict[_query]
-            merge_evidence_text = [f"Text: {snippet} \n Source: {_url}" for snippet, _url in zip(_snippet_list, url_to_check)]
+            merge_evidence_text = [f"Text: {snippet} \n Source: {_url} \n Date: {url_to_date.get(_url, 'Unknown')}" for snippet, _url in zip(_snippet_list, url_to_check)]
             merge_evidence_text = [re.sub(r"\n+", "\n", evidence) for evidence in merge_evidence_text]
             evidences[_query_index] = {
                 "text": "\n\n".join(merge_evidence_text),