Upload files with `vila-upload`.

Browse files

Upload modeling_vila.py
Upload auto_processor.py

Files changed (2) hide show

auto_processor.py +8 -3
modeling_vila.py +2 -19

auto_processor.py CHANGED Viewed

@@ -305,15 +305,20 @@ class VILAProcessor(ProcessorMixin):
         attention_mask[input_ids == self.pad_token_id] = False
         # print("[DEBUGAAA]", self.pad_token_id, self.tokenizer.pad_token_id); exit(0)
         input_texts = self.tokenizer.batch_decode(input_ids)
-        return BatchFeature(
             data={
-                "input_texts": input_texts,
                 "input_ids": input_ids,
                 "attention_mask": attention_mask,
                 "media": media,
                 "media_config": media_config,
             }
         )
     def __single_call__(
         self,
@@ -360,7 +365,7 @@ class VILAProcessor(ProcessorMixin):
                 raise ValueError(f"Unsupported media type: {name}")
         inputs = tokenize_conversation(conversation, self.tokenizer, add_generation_prompt=True, return_ids_only=False)
-        input_ids = inputs.input_ids[0].unsqueeze(0)#.cuda()
         attention_mask = torch.ones_like(input_ids, dtype=torch.bool)
         return BatchFeature(
             data={

         attention_mask[input_ids == self.pad_token_id] = False
         # print("[DEBUGAAA]", self.pad_token_id, self.tokenizer.pad_token_id); exit(0)
         input_texts = self.tokenizer.batch_decode(input_ids)
+        bdata = BatchFeature(
             data={
+                # "input_texts": input_texts,
                 "input_ids": input_ids,
                 "attention_mask": attention_mask,
                 "media": media,
                 "media_config": media_config,
             }
         )
+        # NOTE: hard coded to cuda
+        # bdata.input_ids = bdata.input_ids.cuda()
+        # bdata.attention_mask = bdata.attention_mask.cuda()
+        # bdata.media["image"] = [img.cuda() for img in bdata.media["image"]]
+        return bdata
     def __single_call__(
         self,
                 raise ValueError(f"Unsupported media type: {name}")
         inputs = tokenize_conversation(conversation, self.tokenizer, add_generation_prompt=True, return_ids_only=False)
+        input_ids = inputs.input_ids[0].unsqueeze(0).cuda()
         attention_mask = torch.ones_like(input_ids, dtype=torch.bool)
         return BatchFeature(
             data={

modeling_vila.py CHANGED Viewed

@@ -1082,7 +1082,7 @@ class VILAForCasualLM(VILAPretrainedModel):
         return outputs
-    # @torch.inference_mode()
     def generate(
         self,
         input_ids: Optional[torch.FloatTensor] = None,
@@ -1092,18 +1092,11 @@ class VILAForCasualLM(VILAPretrainedModel):
         return_output_ids_only: bool = False,
         **generation_kwargs,
     ) -> torch.LongTensor:
-        model_training_status = False
-        if self.training:
-            warnings.warn(
-                "Model is in training mode, using default padding strategy to right. This is not recommended for generation. We implicitly set the model to evaluation mode and restore the model training status after generation."
-            )
-            self.eval()
-            model_training_status = True
         """
         input_tokens: <image> describe the image
         media:        [Tensor(1, 3, 384, 384), ]
         ----------->
-        input_tokens:     36000       001 002 003 004
         input_emds:     <media emd>   001 002 003 004
         """
         # NOTE: hard code to move to GPU
@@ -1112,14 +1105,8 @@ class VILAForCasualLM(VILAPretrainedModel):
         if attention_mask is not None:
             attention_mask = attention_mask.cuda()
-        # TODO: there is still a padding left vs right issue unsovled here.
-        # print("prev args:",input_ids.shape, media, media_config, None, attention_mask)
         inputs_embeds, _, attention_mask = self._embed(input_ids, media, media_config, None, attention_mask)
-        # print("inputs_embeds", inputs_embeds.shape, inputs_embeds.mean(), inputs_embeds.std())
-        # print("attention_mask", attention_mask.shape, attention_mask)
         output_ids = self.llm.generate(inputs_embeds=inputs_embeds, attention_mask=attention_mask, **generation_kwargs)
-        # print("output_ids", self.tokenizer.batch_decode(output_ids))
-        # input("wait for debug")
         if return_output_ids_only:
             return_value = output_ids
@@ -1133,10 +1120,6 @@ class VILAForCasualLM(VILAPretrainedModel):
             else:
                 return_value = torch.cat([input_ids, output_ids], dim=-1)
-        if model_training_status:
-            # restore the model training status
-            self.train()
         return return_value
     @torch.inference_mode()

         return outputs
+    @torch.inference_mode()
     def generate(
         self,
         input_ids: Optional[torch.FloatTensor] = None,
         return_output_ids_only: bool = False,
         **generation_kwargs,
     ) -> torch.LongTensor:
         """
         input_tokens: <image> describe the image
         media:        [Tensor(1, 3, 384, 384), ]
         ----------->
+        input_tokens:      36000      001 002 003 004
         input_emds:     <media emd>   001 002 003 004
         """
         # NOTE: hard code to move to GPU
         if attention_mask is not None:
             attention_mask = attention_mask.cuda()
         inputs_embeds, _, attention_mask = self._embed(input_ids, media, media_config, None, attention_mask)
         output_ids = self.llm.generate(inputs_embeds=inputs_embeds, attention_mask=attention_mask, **generation_kwargs)
         if return_output_ids_only:
             return_value = output_ids
             else:
                 return_value = torch.cat([input_ids, output_ids], dim=-1)
         return return_value
     @torch.inference_mode()