Spaces:

SorbonneUniversity
/

SorboBot

Sleeping

Léo Bourrel commited on Oct 12, 2023

Commit

3378b23

1 Parent(s): 5a5c81b

feat: share metadata with LLM + Improve doc source display

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 import streamlit as st
 import streamlit.components.v1 as components
@@ -146,8 +147,14 @@ with chat_column:
 with doc_column:
     if len(st.session_state.history) > 0:
-        st.markdown("**Source document**")
         for doc in st.session_state.history[-1].documents:
-            expander = st.expander(doc.metadata["title"])
-            expander.markdown("**" + doc.metadata["doi"] + "**")
-            expander.markdown(doc.page_content)

 import os
+import json
 import streamlit as st
 import streamlit.components.v1 as components
 with doc_column:
     if len(st.session_state.history) > 0:
+        st.markdown("**Source documents**")
         for doc in st.session_state.history[-1].documents:
+            doc_content = json.loads(doc.page_content)
+            expander = st.expander(doc_content["title"])
+            expander.markdown("**" + doc_content["doi"] + "**")
+            expander.markdown(doc_content["abstract"])
+            expander.markdown("**Authors** : " + doc_content["authors"])
+            expander.markdown("**Keywords** : " + doc_content["keywords"])
+            expander.markdown("**Distance** : " + str(doc_content["distance"]))

custom_pgvector.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from __future__ import annotations
 import pandas as pd
 import asyncio
 import contextlib
@@ -344,19 +345,20 @@ class CustomPGVector(VectorStore):
         docs = [
             (
                 Document(
-                    page_content=result.abstract,
-                    metadata={
-                        "id": result.id,
-                        "title": result.title,
-                        "authors": result.authors,
-                        "doi": result.doi,
-                        "keywords": results.keywords,
-                        "distance": results.distance,
-                    },
                 ),
-                result.distance if self.embedding_function is not None else None,
             )
-            for result in results.itertuples()
         ]
         return docs
@@ -392,6 +394,7 @@ class CustomPGVector(VectorStore):
             )
             results = results.fetchall()
             results = pd.DataFrame(results, columns=["id", "title", "doi", "abstract", "keywords",  "authors", "distance"])
         return results
     def similarity_search_by_vector(

 from __future__ import annotations
+import json
 import pandas as pd
 import asyncio
 import contextlib
         docs = [
             (
                 Document(
+                    page_content=json.dumps({
+                        "abstract": result["abstract"],
+                        "id": result["id"],
+                        "title": result["title"],
+                        "authors": result["authors"],
+                        "doi": result["doi"],
+                        "halID": result["halID"],
+                        "keywords": result["keywords"],
+                        "distance": result["distance"],
+                    }),
                 ),
+                result["distance"] if self.embedding_function is not None else None,
             )
+            for result in results
         ]
         return docs
             )
             results = results.fetchall()
             results = pd.DataFrame(results, columns=["id", "title", "doi", "abstract", "keywords",  "authors", "distance"])
+            results = results.to_dict(orient="records")
         return results
     def similarity_search_by_vector(