a-gleeson · hannabh · Apr 16, 2024 · Apr 16, 2024 · Apr 16, 2024 · Apr 16, 2024
diff --git a/app/home.py b/app/home.py
@@ -9,6 +9,7 @@
 from config.logging import setup_logging
 from config.settings import ENV
 from hackathon.streamlit.utils import check_password
+from hackathon.transcripts.transcript_handling import Transcript
 
 get_logger = setup_logging()
 logger = get_logger(__name__)
@@ -28,8 +29,14 @@ def image_to_base64(image):
     return img_str
 
 
+@st.cache_data
+def convert_df(df):
+    # IMPORTANT: Cache the conversion to prevent computation on every rerun
+    return df.to_csv().encode("utf-8")
+
+
 cwd = os.getcwd()
-image_path = f"{cwd}/static/images/gov_uk.png"
+image_path = os.path.join(cwd, "static", "images", "gov_uk.png")
 image = Image.open(image_path)
 
 header_css = """

diff --git a/app/pages/Transcript.py b/app/pages/Transcript.py
@@ -0,0 +1,63 @@
+import base64
+import io
+import os
+
+import streamlit as st
+from PIL import Image
+from streamlit_gov_uk_components import gov_uk_checkbox
+
+from config.logging import setup_logging
+from config.settings import ENV
+from hackathon.streamlit.utils import check_password
+from hackathon.transcripts.transcript_handling import Transcript
+
+get_logger = setup_logging()
+logger = get_logger(__name__)
+
+st.set_page_config(page_title="Meeting Record Creator", page_icon="🎯", layout="wide")
+
+# Password protection of pages
+if ENV.upper() == "PROD" and not check_password():
+    st.stop()  # Do not continue if check_password is not True.
+
+
+@st.cache_data
+def convert_df(df):
+    # IMPORTANT: Cache the conversion to prevent computation on every rerun
+    return df.to_csv().encode("utf-8")
+
+
+st.header("Edit Meeting Transcript")
+
+
+data_path = st.file_uploader(label="#### Transcript `.csv`")
+if data_path is not None:
+    transcript = Transcript(data_path)
+    data = transcript.data
+
+    with st.expander("Edit meeting attendees", expanded=False):
+        speaker_list = data["Speaker"].unique()
+        edited_speaker_list = st.data_editor(speaker_list, num_rows="dynamic")
+
+    with st.expander("Edit meeting transcript", expanded=False):
+        st_transcript_table = st.data_editor(
+            data,
+            hide_index=True,
+            use_container_width=True,
+            column_config={
+                "Speaker": st.column_config.SelectboxColumn(
+                    "Speaker",
+                    help="Select Speaker",
+                    options=list(edited_speaker_list),
+                    required=True,
+                )
+            },
+        )
+        if st.button("Approve transcript"):
+            transcript.update_data(st_transcript_table)
+            st.success("Transcription approved")
+            st.download_button(
+                "Download transcript as .txt file",
+                data=str(transcript),
+                file_name="transcript_download.txt",
+            )
diff --git a/hackathon/transcripts/__init__.py b/hackathon/transcripts/__init__.py
diff --git a/hackathon/transcripts/transcript_handling.py b/hackathon/transcripts/transcript_handling.py
@@ -0,0 +1,56 @@
+import os
+
+import pandas as pd
+
+
+class Transcript:
+
+    def __init__(self, file_path: str = None, data: pd.DataFrame = None):
+        self.file_path = file_path
+
+        if file_path is not None:
+            data = pd.read_csv(file_path)
+        data.columns = [col.title() for col in data.columns]
+
+        if not "Speaker" in data.columns:
+            raise ValueError('No "Speaker" column in transcript')
+        if not "Text" in data.columns:
+            raise ValueError('No "Text" field found in transcript')
+
+        if "Time" in data.columns:
+            data = data.sort_values("Time")
+
+        if "Approved?" not in data.columns:
+            data["Approved?"] = False
+        else:
+            data["Approved?"] = data["Approved?"].astype(bool)
+
+        if data["Approved?"].all():
+            self.is_approved = True
+        else:
+            self.is_approved = False
+
+        data = data[[col for col in data.columns if "Unnamed" not in col]]
+
+        self.data = data
+
+    def __repr__(self):
+        return f"Transcript object stored at {self.file_path}\n\n{self.data.__repr__()}"
+
+    def __str__(self):
+        s = ""
+        for ix, row in self.data.iterrows():
+            s = f"{s}\n\n{row['Speaker']}: {row['Text']}"
+        return s
+
+    def __getitem__(self, key):
+        return getattr(self.data, key)
+
+    def update_data(self, data: pd.DataFrame) -> None:
+        self.data = data
+
+    def save_transcript(self, write_path: str) -> None:
+        if write_path[-4:] != ".csv":
+            raise ValueError("Must be saved to a .csv!")
+
+        self.data.to_csv(write_path, index=False)
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -35,7 +35,6 @@ streamlit-gov-uk-components = "^0.0.14"
 fuzzywuzzy = "^0.18.0"
 botocore = "^1.34.64"
 instructor = "^1.2.0"
-psycopg2 = "^2.9.9"
 anthropic = "^0.25.2"