Stable Diffusionに基づく視覚・言語融合における3DCG生成画像の品質評価に関する基礎的検討

河畑,則文

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2024-03-05 15:16 Stable Diffusionに基づく視覚・言語融合における3DCG生成画像の品質評価に関する基礎的検討 ○河畑則文（金沢学院大）
抄録	（和）	マルチモーダル大規模言語モデルであるGPT-4が2023年3月14日に公開された．GPT-4は自然言語処理に機械学習モデルであるTransformerを採用し，教師なし学習によって大規模なニューラルネットワークを学習後，人間のフィードバックから強化学習 (RLHF)を行っている．GPT-4は自然言語処理 (NLP) 分野における研究成果の一つではあるが，自然言語生成だけでなく，画像生成にも応用可能な技術である．しかし，GPT-4は具体的な仕様が公開されておらず，研究用途で使うことが難しい．そのため，本研究では，テキストプロンプト入力に基づく画像生成や画像に基づく画像生成にも使用される深層学習のモデルであるStable Diffusionを用いてパラメータを調整し，視覚・言語を融合させた3DCG画像を生成し，画像生成モデルの品質評価に関する実験を行い考察を行った．
	（英）	GPT-4, which is a multimodal large-scale language model, was released on March 14, 2023. GPT-4 is equipped with Transformer, a machine learning model for natural language processing, which trains a large neural network through unsupervised learning, followed by reinforcement learning from human feedback (RLHF) based on human feedback. Although GPT-4 is one of the research achievements in the field of natural language processing (NLP), it is a technology that can be applied not only to natural language generation but also to image generation. However, specifications for GPT-4 have not been made public, therefore it is difficult to use for research purposes. In this study, we first generated an image database by adjusting parameters using Stable Diffusion, which is a deep learning model that is also used for image generation based on text input and images. And then, we carried out experiments to evaluate the image quality from the generated database, and discussed the quality assessment of the image generation model.
キーワード	（和）	画像生成AI / 拡散モデル / Vision and Language / image-to-image / 画質評価 / / /
	（英）	Image Generation AI / Diffusion Model / Vision and Language / image-to-image / Image Quality Assessment / / /
文献情報		映情学技報, vol. 48, no. 8, AIT2024-115, pp. 288-291, 2024年3月.
資料番号		AIT2024-115
発行日		2024-02-27 (AIT)
ISSN		Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	AIT IIEEJ AS CG-ARTS
開催期間	2024-03-05 - 2024-03-05
開催地（和）	東京工科大学八王子キャンパス
開催地（英）	Tokyo University of Technology
テーマ（和）	映像表現・芸術科学フォーラム2024（Expressive Japan 2024)
テーマ（英）	Expressive Japan 2024
講演論文情報の詳細
申込み研究会	AIT
会議コード	2024-03-AIT-IIEEJ-AS-ARTS
本文の言語	日本語
タイトル（和）	Stable Diffusionに基づく視覚・言語融合における3DCG生成画像の品質評価に関する基礎的検討
サブタイトル（和）
タイトル（英）	A Fundamental Study on 3D CG Image Quality Assessment in Vision & Language Based on Stable Diffusion
サブタイトル（英）
キーワード(1)（和/英）	画像生成AI / Image Generation AI
キーワード(2)（和/英）	拡散モデル / Diffusion Model
キーワード(3)（和/英）	Vision and Language / Vision and Language
キーワード(4)（和/英）	image-to-image / image-to-image
キーワード(5)（和/英）	画質評価 / Image Quality Assessment
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	河畑則文 / Norifumi Kawabata / カワバタノリフミ
第1著者所属（和/英）	金沢学院大学 (略称：金沢学院大) Kanazawa Gakuin University (略称： Kanazawa Gakuin Univ.)
第2著者氏名（和/英/ヨミ）	/ /
第2著者所属（和/英）	(略称： ) (略称： )
第3著者氏名（和/英/ヨミ）	/ /
第3著者所属（和/英）	(略称： ) (略称： )
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2024-03-05 15:16:00
発表時間	12分
申込先研究会	AIT
資料番号	AIT2024-115
巻番号（vol）	vol.48
号番号（no）	no.8
ページ範囲	pp.288-291
ページ数	4
発行日	2024-02-27 (AIT)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会