Henry65
/

RepoSim4Py

@@ -2,14 +2,20 @@ from typing import Dict, Any, List
 import ast
 import tarfile
-from ast import AsyncFunctionDef, ClassDef, FunctionDef, Module
 import torch
 import requests
 from transformers import Pipeline
 from tqdm.auto import tqdm
 def extract_code_and_docs(text: str):
     code_set = set()
     docs_set = set()
     root = ast.parse(text)
@@ -28,7 +34,33 @@ def extract_code_and_docs(text: str):
     return code_set, docs_set
 def get_metadata(repo_name, headers=None):
     api_url = f"https://api.github.com/repos/{repo_name}"
     tqdm.write(f"[+] Getting metadata for {repo_name}")
     try:
@@ -41,9 +73,15 @@ def get_metadata(repo_name, headers=None):
 def extract_information(repos, headers=None):
     extracted_infos = []
     for repo_name in tqdm(repos, disable=len(repos) <= 1):
-        # Get metadata
         metadata = get_metadata(repo_name, headers=headers)
         repo_info = {
             "name": repo_name,
@@ -60,7 +98,7 @@ def extract_information(repos, headers=None):
         if metadata.get("license"):
             repo_info["license"] = metadata["license"]["spdx_id"]
-        # Download repo tarball bytes
         download_url = f"https://api.github.com/repos/{repo_name}/tarball"
         tqdm.write(f"[+] Downloading {repo_name}")
         try:
@@ -70,24 +108,51 @@ def extract_information(repos, headers=None):
             tqdm.write(f"[-] Failed to download {repo_name}: {e}")
             continue
-        # Extract python files and parse them
         tqdm.write(f"[+] Extracting {repo_name} info")
         with tarfile.open(fileobj=response.raw, mode="r|gz") as tar:
             for member in tar:
-                if (member.name.endswith(".py") and member.isfile()) is False:
-                    continue
-                try:
-                    file_content = tar.extractfile(member).read().decode("utf-8")
-                    code_set, docs_set = extract_code_and_docs(file_content)
-                    repo_info["codes"].update(code_set)
-                    repo_info["docs"].update(docs_set)
-                except UnicodeDecodeError as e:
-                    tqdm.write(
-                        f"[-] UnicodeDecodeError in {member.name}, skipping: \n{e}"
-                    )
-                except SyntaxError as e:
-                    tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
         extracted_infos.append(repo_info)
@@ -95,11 +160,20 @@ def extract_information(repos, headers=None):
 class RepoPipeline(Pipeline):
     def __init__(self, github_token=None, *args, **kwargs):
         super().__init__(*args, **kwargs)
-        # Github token
         self.github_token = github_token
         if self.github_token:
             print("[+] GitHub token set!")
@@ -111,36 +185,56 @@ class RepoPipeline(Pipeline):
             )
     def _sanitize_parameters(self, **pipeline_parameters):
         preprocess_parameters = {}
         if "github_token" in pipeline_parameters:
             preprocess_parameters["github_token"] = pipeline_parameters["github_token"]
         forward_parameters = {}
         if "max_length" in pipeline_parameters:
             forward_parameters["max_length"] = pipeline_parameters["max_length"]
         postprocess_parameters = {}
         return preprocess_parameters, forward_parameters, postprocess_parameters
     def preprocess(self, input_: Any, github_token=None) -> List:
-        # Making input to list format
         if isinstance(input_, str):
             input_ = [input_]
-        # Building token
         headers = {"Accept": "application/vnd.github+json"}
         token = github_token or self.github_token
         if token:
             headers["Authorization"] = f"Bearer {token}"
-        # Getting repositories' information: input_ means series of repositories
         extracted_infos = extract_information(input_, headers=headers)
         return extracted_infos
     def encode(self, text, max_length):
         assert max_length < 1024
         tokenizer = self.tokenizer
         tokens = (
                 [tokenizer.cls_token, "<encoder-only>", tokenizer.sep_token]
@@ -149,20 +243,36 @@ class RepoPipeline(Pipeline):
         )
         tokens_id = tokenizer.convert_tokens_to_ids(tokens)
         source_ids = torch.tensor([tokens_id]).to(self.device)
         token_embeddings = self.model(source_ids)[0]
         sentence_embeddings = token_embeddings.mean(dim=1)
         return sentence_embeddings
     def generate_embeddings(self, text_sets, max_length):
         assert max_length < 1024
         return torch.zeros((1, 768), device=self.device) \
-            if text_sets is None or len(text_sets) == 0 \
             else torch.cat([self.encode(text, max_length) for text in text_sets], dim=0)
     def _forward(self, extracted_infos: List, max_length=512) -> List:
         model_outputs = []
         num_repos = len(extracted_infos)
         with tqdm(total=num_repos) as progress_bar:
             # For each repository
@@ -194,14 +304,26 @@ class RepoPipeline(Pipeline):
                 info["requirement_embeddings"] = requirement_embeddings.cpu().numpy()
                 info["mean_requirement_embedding"] = torch.mean(requirement_embeddings, dim=0).cpu().numpy()
-                # Requirement embeddings
                 tqdm.write(f"[*] Generating readme embeddings for {repo_name}")
                 readme_embeddings = self.generate_embeddings(repo_info["readmes"], max_length)
                 info["readme_embeddings"] = readme_embeddings.cpu().numpy()
                 info["mean_readme_embedding"] = torch.mean(readme_embeddings, dim=0).cpu().numpy()
                 info["code_embeddings_shape"] = info["code_embeddings"].shape
                 info["doc_embeddings_shape"] = info["doc_embeddings"].shape
                 progress_bar.update(1)
                 model_outputs.append(info)
@@ -209,6 +331,10 @@ class RepoPipeline(Pipeline):
         return model_outputs
     def postprocess(self, model_outputs: List, **postprocess_parameters: Dict) -> List:
         return model_outputs

 import ast
 import tarfile
 import torch
 import requests
+import numpy as np
+from ast import AsyncFunctionDef, ClassDef, FunctionDef, Module
 from transformers import Pipeline
 from tqdm.auto import tqdm
 def extract_code_and_docs(text: str):
+    """
+    The method for extracting codes and docs in text.
+    :param text: python file.
+    :return: codes and docs set.
+    """
     code_set = set()
     docs_set = set()
     root = ast.parse(text)
     return code_set, docs_set
+def extract_requirements(lines):
+    """
+    The method for extracting requirements.
+    :param lines: requirements.
+    :return: requirement libraries.
+    """
+    requirements_set = set()
+    for line in lines:
+        try:
+            if line != "\n":
+                if " == " in line:
+                    splitLine = line.split(" == ")
+                else:
+                    splitLine = line.split("==")
+                requirements_set.add(splitLine[0])
+        except:
+            pass
+    return requirements_set
 def get_metadata(repo_name, headers=None):
+    """
+    The method for getting metadata of repository from github_api.
+    :param repo_name: repository name.
+    :param headers: request headers.
+    :return: response json.
+    """
     api_url = f"https://api.github.com/repos/{repo_name}"
     tqdm.write(f"[+] Getting metadata for {repo_name}")
     try:
 def extract_information(repos, headers=None):
+    """
+    The method for extracting repositories information.
+    :param repos: repositories.
+    :param headers: request header.
+    :return: a list for representing the information of each repository.
+    """
     extracted_infos = []
     for repo_name in tqdm(repos, disable=len(repos) <= 1):
+        # 1. Extracting metadata.
         metadata = get_metadata(repo_name, headers=headers)
         repo_info = {
             "name": repo_name,
         if metadata.get("license"):
             repo_info["license"] = metadata["license"]["spdx_id"]
+        # Download repo tarball bytes ---- Download repository.
         download_url = f"https://api.github.com/repos/{repo_name}/tarball"
         tqdm.write(f"[+] Downloading {repo_name}")
         try:
             tqdm.write(f"[-] Failed to download {repo_name}: {e}")
             continue
+        # Extract repository files and parse them
         tqdm.write(f"[+] Extracting {repo_name} info")
         with tarfile.open(fileobj=response.raw, mode="r|gz") as tar:
             for member in tar:
+                # 2. Extracting codes and docs.
+                if member.name.endswith(".py") and member.isfile():
+                    try:
+                        file_content = tar.extractfile(member).read().decode("utf-8")
+                        # extract_code_and_docs
+                        code_set, docs_set = extract_code_and_docs(file_content)
+                        repo_info["codes"].update(code_set)
+                        repo_info["docs"].update(docs_set)
+                    except UnicodeDecodeError as e:
+                        tqdm.write(
+                            f"[-] UnicodeDecodeError in {member.name}, skipping: \n{e}"
+                        )
+                    except SyntaxError as e:
+                        tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
+                elif (member.name.endswith("README.md") or member.name.endswith("README.rst")) and member.isfile():
+                    # 3. Extracting readme.
+                    try:
+                        file_content = tar.extractfile(member).read().decode("utf-8")
+                        # extract readme
+                        readmes_set = set()
+                        readmes_set.add(file_content)
+                        repo_info["readmes"].update(readmes_set)
+                    except UnicodeDecodeError as e:
+                        tqdm.write(
+                            f"[-] UnicodeDecodeError in {member.name}, skipping: \n{e}"
+                        )
+                    except SyntaxError as e:
+                        tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
+                elif member.name.endswith("requirements.txt") and member.isfile():
+                    # 4. Extracting requirements.
+                    try:
+                        lines = tar.extractfile(member).readlines().decode("utf-8")
+                        # extract readme
+                        requirements_set = extract_requirements(lines)
+                        repo_info["requirements"].update(requirements_set)
+                    except UnicodeDecodeError as e:
+                        tqdm.write(
+                            f"[-] UnicodeDecodeError in {member.name}, skipping: \n{e}"
+                        )
+                    except SyntaxError as e:
+                        tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
         extracted_infos.append(repo_info)
 class RepoPipeline(Pipeline):
+    """
+    A custom pipeline for generating series of embeddings of a repository.
+    """
     def __init__(self, github_token=None, *args, **kwargs):
+        """
+        The initial method for pipeline.
+        :param github_token: github_token
+        :param args: args
+        :param kwargs: kwargs
+        """
         super().__init__(*args, **kwargs)
+        # Getting github token
         self.github_token = github_token
         if self.github_token:
             print("[+] GitHub token set!")
             )
     def _sanitize_parameters(self, **pipeline_parameters):
+        """
+        The method for splitting parameters.
+        :param pipeline_parameters: parameters
+        :return: different parameters of different periods.
+        """
+        # The parameters of "preprocess" period.
         preprocess_parameters = {}
         if "github_token" in pipeline_parameters:
             preprocess_parameters["github_token"] = pipeline_parameters["github_token"]
+        # The parameters of "forward" period.
         forward_parameters = {}
         if "max_length" in pipeline_parameters:
             forward_parameters["max_length"] = pipeline_parameters["max_length"]
+        # The parameters of "postprocess" period.
         postprocess_parameters = {}
         return preprocess_parameters, forward_parameters, postprocess_parameters
     def preprocess(self, input_: Any, github_token=None) -> List:
+        """
+        The method for "preprocess" period.
+        :param input_: the input.
+        :param github_token: github_token.
+        :return: a list about repository information.
+        """
+        # Making input to list format.
         if isinstance(input_, str):
             input_ = [input_]
+        # Building headers.
         headers = {"Accept": "application/vnd.github+json"}
         token = github_token or self.github_token
         if token:
             headers["Authorization"] = f"Bearer {token}"
+        # Getting repositories' information: input_ means series of repositories (can be only one repository).
         extracted_infos = extract_information(input_, headers=headers)
         return extracted_infos
     def encode(self, text, max_length):
+        """
+        The method for encoding the text to embedding by using UniXcoder.
+        :param text: text.
+        :param max_length: the max length.
+        :return: the embedding of text.
+        """
         assert max_length < 1024
+        # Getting the tokenizer.
         tokenizer = self.tokenizer
         tokens = (
                 [tokenizer.cls_token, "<encoder-only>", tokenizer.sep_token]
         )
         tokens_id = tokenizer.convert_tokens_to_ids(tokens)
         source_ids = torch.tensor([tokens_id]).to(self.device)
         token_embeddings = self.model(source_ids)[0]
+        # Getting the text embedding.
         sentence_embeddings = token_embeddings.mean(dim=1)
         return sentence_embeddings
     def generate_embeddings(self, text_sets, max_length):
+        """
+        The method for generating embeddings of a text set.
+        :param text_sets: text set.
+        :param max_length: max length.
+        :return: the embeddings of text set.
+        """
         assert max_length < 1024
+        # Concat the embeddings of each sentence/text in vertical dimension.
         return torch.zeros((1, 768), device=self.device) \
+            if not text_sets \
             else torch.cat([self.encode(text, max_length) for text in text_sets], dim=0)
     def _forward(self, extracted_infos: List, max_length=512) -> List:
+        """
+        The method for "forward" period.
+        :param extracted_infos: the information of repositories.
+        :param max_length: max length.
+        :return: the output of this pipeline.
+        """
         model_outputs = []
+        # The number of repository.
         num_repos = len(extracted_infos)
         with tqdm(total=num_repos) as progress_bar:
             # For each repository
                 info["requirement_embeddings"] = requirement_embeddings.cpu().numpy()
                 info["mean_requirement_embedding"] = torch.mean(requirement_embeddings, dim=0).cpu().numpy()
+                # Readme embeddings
                 tqdm.write(f"[*] Generating readme embeddings for {repo_name}")
                 readme_embeddings = self.generate_embeddings(repo_info["readmes"], max_length)
                 info["readme_embeddings"] = readme_embeddings.cpu().numpy()
                 info["mean_readme_embedding"] = torch.mean(readme_embeddings, dim=0).cpu().numpy()
+                # Repo-level mean embedding
+                info["mean_repo_embedding"] = np.concatenate([
+                    info["mean_code_embedding"],
+                    info["mean_doc_embedding"],
+                    info["mean_requirement_embedding"],
+                    info["mean_readme_embedding"]
+                ], axis=0)
+                # TODO Remove test
                 info["code_embeddings_shape"] = info["code_embeddings"].shape
                 info["doc_embeddings_shape"] = info["doc_embeddings"].shape
+                info["requirement_embeddings_shape"] = info["requirement_embeddings"].shape
+                info["readme_embeddings_shape"] = info["readme_embeddings"].shape
+                info["mean_repo_embedding_shape"] = info["mean_repo_embedding"].shape
                 progress_bar.update(1)
                 model_outputs.append(info)
         return model_outputs
     def postprocess(self, model_outputs: List, **postprocess_parameters: Dict) -> List:
+        """
+        The method for "postprocess" period.
+        :param model_outputs: the output of this pipeline.
+        :param postprocess_parameters: the parameters of "postprocess" period.
+        :return: model output.
+        """
         return model_outputs