Skip to content

KuramitsuLab/ModelVista-3Lang

Repository files navigation

ModelVista: ソフトウェア図理解評価データセット

Vision-Language Models (VLMs) のソフトウェア開発図理解能力を評価するための多言語ベンチマークデータセットです。

データセット概要

項目
図の総数 65枚
質問総数 472問
対応言語 4言語(日本語、英語、韓国語、ベトナム語)
図の種類 25種類

データセット構造

ModelVista/
├── image-fs8/                 # 日本語の図(65枚)
│   ├── activity001.png
│   ├── activity002.png
│   ├── activity003.png
│   ├── class001.png
│   ├── class002.png
│   ├── class003.png
│   ├── communication001.png
│   ├── communication002.png
│   ├── communication003.png
│   └── ...
├── image-en-fs8/                 # 英語の図(65枚)
│   └── (日本語と同じファイル名)
├── image-ko-fs8/                 # 韓国語の図(65枚)
│   └── (日本語と同じファイル名)
├── ModelVista_data.json       # 日本語の質問(472問)
├── ModelVista_data_en.json       # 英語の質問(472問)
└── ModelVista_data_ko.json       # 韓国語の質問(472問)

データ形式

ModelVista_data_[言語].json

各JSONファイルは質問のリストで構成されています:

{
  "number": 6,
  "type": "usecase001",
  "metadata": "{'図表の特徴': '基礎的な図、アクターがアイコン', '構成要素数': 3, '画像中の文字数': 27, '画像名': 'ユースケース図', '評価項目': '関1', '関連要素数': 2}",
  "question": "システムがユースケース「チケットを挿入する」機能を提供するのはどのアクターに対してですか?",
  "choice": [
    "利用者",
    "社員",
    "駅員",
    "鉄道管理システム"
  ],
  "answer": "A"
}

フィールド説明

  • number: 質問番号(0-471)
  • type: 図のタイプと番号(例: usecase001, sequence002)
  • metadata: 図のメタデータ(図表の特徴、構成要素数、文字数など)
  • question: 質問文
  • choice: 選択肢のリスト(4択)
  • answer: 正解(A, B, C, Dのいずれか)

画像ファイル命名規則

各図は [図のタイプ][番号3桁].png の形式で命名されています:

  • activity001.png - activity003.png: アクティビティ図
  • class001.png - class003.png: クラス図
  • communication001.png - communication003.png: コミュニケーション図
  • usecase001.png - usecase003.png: ユースケース図
  • など(全25種類)

収録図の種類(25種類)

UML図(13種類)

  • ユースケース図、オブジェクト図、クラス図、シーケンス図、コミュニケーション図、状態機械図、アクティビティ図、パッケージ図、コンポーネント図、配置図、複合構造図、タイミング図、相互作用概要図

その他のソフトウェア図(12種類)

  • テーブル、データベース、ビジネスフロー図、データフロー図、アーキテクチャ図、ER図、ガントチャート、状態遷移表、CRUDテーブル、システム構成図、画面遷移図、モックアップ

About

ソフトウェア図理解のためのVLM評価ベンチマーク(日本語・英語・韓国語対応)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors