---
tags:
- code
- python
- php
- java
- javascript
- go
- ruby
- rust
base_model: Shuu12121/CodeModernBERT-Crow
pipeline_tag: sentence-similarity
library_name: sentence-transformers
license: apache-2.0
datasets:
- Shuu12121/python-codesearch-filtered
- Shuu12121/ruby-codesearch-filtered
- Shuu12121/java-codesearch-filtered
- Shuu12121/go-codesearch-filtered
- Shuu12121/rust-codesearch-filtered
- Shuu12121/javascript-codesearch-filtered
- Shuu12121/php-codesearch-filtered
- code-search-net/code_search_net
language:
- en
---
# Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦‍⬛

このモデルは、`Shuu12121/CodeModernBERT-Crow` をベースにした Sentence Transformer モデルであり、**PHPとGoのクリーン版データセット**を新たに加えることで、さらに高精度な多言語コード検索を実現しています。  
本バージョン（1.0）では、前バージョン (`Crow-Plus`) に対して若干の性能向上が確認されています。

> This is an enhanced version of `CodeSearch-ModernBERT-Crow-Plus`, based on `CodeModernBERT-Crow`, incorporating clean PHP and Go datasets for improved multilingual code search performance.

開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)  
ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)  
ライセンス (License): Apache-2.0

---

## 📊 評価 / Evaluation

本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、  
前バージョンよりもさらに高い精度を達成しています。

### **CodeSearchNetRetrieval (標準版) 成績**

| メトリクス         | スコア    |
|--------------------|-----------|
| **nDCG@10**         | **0.8946** |
| Recall@10          | 0.9597    |
| MAP@10             | 0.8731    |
| MRR@10             | 0.8731    |

詳細スコア（抜粋）：
- `ndcg_at_1`: 0.8175
- `ndcg_at_3`: 0.8810
- `ndcg_at_5`: 0.8888
- `recall_at_20`: 0.9672
- `recall_at_100`: 0.9807
- `recall_at_1000`: 1.0

> 前バージョン (`Crow-Plus`) 比較で nDCG@10 がわずかに向上（+0.17pt）しており、より安定した高リコールが得られています。

---

### **COIRCodeSearchNetRetrieval 成績**

| メトリクス         | スコア    |
|--------------------|-----------|
| **nDCG@10**         | **0.8001** |
| Recall@10          | 0.8806    |
| MAP@10             | 0.7742    |
| MRR@10             | 0.7742    |

詳細スコア（抜粋）：
- `ndcg_at_1`: 0.7168
- `ndcg_at_3`: 0.7775
- `ndcg_at_5`: 0.7896
- `recall_at_20`: 0.9057
- `recall_at_100`: 0.9495
- `recall_at_1000`: 0.9782

> こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。

---

## モデル変更点 / Improvements

| 項目 | Crow-Plus | Crow-Plus-1.0 |
|:---|:---|:---|
| 学習データ | 従来データセット | PHP・Goのクリーン版追加 |
| COIR nDCG@10 | 0.7988 | 0.8001 (+0.13pt) |
| CodeSearchNet nDCG@10 | 0.8930 | 0.8946 (+0.16pt) |
| Recall@10 | 0.9610 | 0.9597 (ほぼ同等) |
| 特徴 | 標準構成 | データ品質向上による安定化 |

- MTEB公式には提出していないため、**非公式記録**です。


## 使い方 / How to Use

従来と同様に、`sentence-transformers`ライブラリを用いて簡単に利用可能です。
（※詳しい使用例はベース版に準じますので省略）

```python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0")
```

---

## 注意事項 / Limitations

- 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。
- クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。
- 本バージョンの結果はMTEB公式には提出されていないため、**あくまで参考記録**である点にご留意ください。

---

## 連絡先 / Contact

ご質問・フィードバックは、開発者 [Shuu12121](https://huggingface.co/Shuu12121) までご連絡ください。  
📧 shun0212114@outlook.jp