--- tags: - code - python - php - java - javascript - go - ruby - rust base_model: Shuu12121/CodeModernBERT-Crow pipeline_tag: sentence-similarity library_name: sentence-transformers license: apache-2.0 datasets: - Shuu12121/python-codesearch-filtered - Shuu12121/ruby-codesearch-filtered - Shuu12121/java-codesearch-filtered - Shuu12121/go-codesearch-filtered - Shuu12121/rust-codesearch-filtered - Shuu12121/javascript-codesearch-filtered - Shuu12121/php-codesearch-filtered - code-search-net/code_search_net language: - en --- # Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦‍⬛ このモデルは、`Shuu12121/CodeModernBERT-Crow` をベースにした Sentence Transformer モデルであり、**PHPとGoのクリーン版データセット**を新たに加えることで、さらに高精度な多言語コード検索を実現しています。 本バージョン(1.0)では、前バージョン (`Crow-Plus`) に対して若干の性能向上が確認されています。 > This is an enhanced version of `CodeSearch-ModernBERT-Crow-Plus`, based on `CodeModernBERT-Crow`, incorporating clean PHP and Go datasets for improved multilingual code search performance. 開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121) ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow) ライセンス (License): Apache-2.0 --- ## 📊 評価 / Evaluation 本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、 前バージョンよりもさらに高い精度を達成しています。 ### **CodeSearchNetRetrieval (標準版) 成績** | メトリクス | スコア | |--------------------|-----------| | **nDCG@10** | **0.8946** | | Recall@10 | 0.9597 | | MAP@10 | 0.8731 | | MRR@10 | 0.8731 | 詳細スコア(抜粋): - `ndcg_at_1`: 0.8175 - `ndcg_at_3`: 0.8810 - `ndcg_at_5`: 0.8888 - `recall_at_20`: 0.9672 - `recall_at_100`: 0.9807 - `recall_at_1000`: 1.0 > 前バージョン (`Crow-Plus`) 比較で nDCG@10 がわずかに向上(+0.17pt)しており、より安定した高リコールが得られています。 --- ### **COIRCodeSearchNetRetrieval 成績** | メトリクス | スコア | |--------------------|-----------| | **nDCG@10** | **0.8001** | | Recall@10 | 0.8806 | | MAP@10 | 0.7742 | | MRR@10 | 0.7742 | 詳細スコア(抜粋): - `ndcg_at_1`: 0.7168 - `ndcg_at_3`: 0.7775 - `ndcg_at_5`: 0.7896 - `recall_at_20`: 0.9057 - `recall_at_100`: 0.9495 - `recall_at_1000`: 0.9782 > こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。 --- ## モデル変更点 / Improvements | 項目 | Crow-Plus | Crow-Plus-1.0 | |:---|:---|:---| | 学習データ | 従来データセット | PHP・Goのクリーン版追加 | | COIR nDCG@10 | 0.7988 | 0.8001 (+0.13pt) | | CodeSearchNet nDCG@10 | 0.8930 | 0.8946 (+0.16pt) | | Recall@10 | 0.9610 | 0.9597 (ほぼ同等) | | 特徴 | 標準構成 | データ品質向上による安定化 | - MTEB公式には提出していないため、**非公式記録**です。 ## 使い方 / How to Use 従来と同様に、`sentence-transformers`ライブラリを用いて簡単に利用可能です。 (※詳しい使用例はベース版に準じますので省略) ```python from sentence_transformers import SentenceTransformer model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0") ``` --- ## 注意事項 / Limitations - 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。 - クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。 - 本バージョンの結果はMTEB公式には提出されていないため、**あくまで参考記録**である点にご留意ください。 --- ## 連絡先 / Contact ご質問・フィードバックは、開発者 [Shuu12121](https://huggingface.co/Shuu12121) までご連絡ください。 📧 shun0212114@outlook.jp