mlgrid-servicesは、様々な機械学習ソフトウェアをWebサービスとして提供する機械学習サービス基盤です。 定義ファイルを読み込んでサービスを登録する機能、JSON-RPC(又はBSON/WebSocket)でのサービス呼び出し機能、GPU管理機能(GPUを使用するサービスにラウンドロビンでGPUを割り当て。一部サービスのみ対応)などを備えています。 Java17およびSpringbootを使って開発されています。
現在以下の17種類のサービスインタフェースが定義され、214のサービスが実装されています。以下はインタフェースの一覧と、各サービスに使用されている学習モデルや外部サービスです。学習モデルを利用するための環境はDockerコンテナとして構築されています。procsディレクトリ以下にそれぞれのモデル毎の設定ファイルや実行スクリプト(bash, pythonなど)が格納されています。各モデルの利用により生成されたデータの扱いは、それぞれの利用規約を参照してください。
-
機械翻訳(インタフェース定義)
-
テキスト生成(インタフェース定義)
-
テキスト生成音声合成(インタフェース定義)
-
テキスト感情分析(インタフェース定義)
-
テキスト類似度計算(インタフェース定義)
-
画像生成(インタフェース定義)
- ChiyodamomoTrinartWaifu50-50
- Cool Japan Diffusion for learning 2.0
- Dalle Mega
- Dalle Mini
- Disco Diffusion style on Stable Diffusion via Dreamboot
- Ghibli Diffusion
- Japanese Stable Diffusion
- Midjourney style
- Openjourney
- Picasso Diffusion 1.1
- Stable Diffusion v1-4
- Stable Diffusion v1-5
- Stable Diffusion v2
- Stable Diffusion v2-1
- Trinart Stable Diffusion v2
- Trinart Waifu Diffusion 50-50
- waifu-diffusion v1.4
-
テキスト指示での画像編集(インタフェース定義)
- 画像生成のモデルの一部を利用
-
画像変換(インタフェース定義)
-
画像テキスト化(インタフェース定義)
-
画像分類(インタフェース定義)
-
物体検出(インタフェース定義)
-
セグメンテーション(インタフェース定義)
-
姿勢推定(インタフェース定義)
-
音声感情認識(インタフェース定義)
-
音声認識(インタフェース定義)
-
リアルタイム音声認識(インタフェース定義)
-
音声合成(インタフェース定義)
mlgrid-servicesに含まれている多くのサービスは、GPUを利用します。どのサービスがどの程度のGPUを使用するかは、 各学習モデルのドキュメント等を参照してください。 開発・テストにはNVIDIA Quadro RTX A6000(48GB RAM)を利用しています。
以下のソフトウェアを使用しています。mlgrid-serviceを起動するシステムに、あらかじめインストールしておく必要があります。
- JDK 17 (Temurin)
- Docker 20.10 + docker-compose 1.29 (Docker Engine, Docker Compose)
まず、このリポジトリをcloneし、設定ファイルをコピーしてください。
git clone https://github.com/openlangrid/mlgrid-services/
cd ./mlgrid-services
cp ./src/main/resources/application.yml ./application.yml
次に、コピーした設定ファイル(./application.yml
)の内容を環境に応じて編集してください。
server:
port: ${SERVER_PORT:8080}
servlet:
context-path: ${CONTEXT_PATH:/mlgrid-services}
services:
langrid:
url: ${LANGRID_URL:https://langrid.org/service_manager/invoker/}
username: ${LANGRID_USERNAME:langrid-user}
password: ${LANGRID_PASSWORD:langrid-pass}
keras:
docker-service-name: ${KERAS_SERVICE_NAME:keras-gpu}
empath:
endpoint: ${EMPATH_ENDPOINT:https://api.webempath.net/v2/analyzeWav}
api-key: ${EMPATH_APIKEY:empath-api-key}
google:
tts-api-key-file: ${GOOGLE_TTS_APIKEY:./google-tts-key.json}
言語グリッド, Empath, Google Cloud TTS を利用する場合、それぞれのURLや認証情報を変更してください。
Kerasを用いた画像認識でCPUを使用する場合は、keras.docker-service-nameをkeras-cpuに変更してください。
上記の準備を行なった上で、JDK17をインストールし、以下のコマンドを実行してください。
./gradlew build -x test
ビルド後、以下のコマンドを実行すると、mlgrid-servicesが起動します。
java -jar ./build/libs/mlgrid-services-0.0.1-SNAPSHOT.jar
mlgrid-servicesが起動すると、以下のURLで、簡易UIが利用できます(簡易UIのビルド結果がmlgrid-servicesのsrc/main/resouces/static/ 以下に取り込まれており、それがブラウザに返されます)。
http://localhost:8080/mlgrid-services/index.html
サービスの種別毎にタブが表示され、タブ内にサービスとサービスへの入力を指定するテキストボックスや画像ファイルなどを選択するボタン、実行ボタンなどが配置されています。入力を指定し、実行するサービスをチェックし、実行ボタンをクリックすると、サービスが実行され結果が表示されます。
多くのサービスが、実行されるたびにDockerを用いて環境構築、モデルのロード、実行を行うため、相応の時間がかかります(十数秒から数分)。
このソフトウェアは、科研費19K20243の助成を受けた研究において作成されたものです。
- 中口孝雄. 機械学習システムへの複合サービス技術の適用. 電子情報通信学会技術研究報告; 信学技報, 2019, 119.178: 39-40.
- 中口孝雄. 機械学習サービスを登録・提供するサービス基盤の構築に向けて. NAIS Journal, 2021, 15: 66-73.