2013年夏のプログラミング・シンポジウム　ビューティフルデータ(2) 午後1 #spro2013

長いので複数記事に分けました。

[招待講演] 製鉄所における大量品質管理データの解析事例と課題茂森弘靖(JFEスチール)

15年ぐらい製鉄所の新しい設備を作ってた
5年前に研究所に移ってデータ解析しはじめた

JFEスチール
- 東日本製鉄所
- 西日本製鉄所
  - 福山・倉敷
- 知多製鉄所

今日は倉敷地区

高炉→転炉→連鋳
これで圧延向けの半製品を作る
そこから各種工程に分かれて様々な製品を作る

顧客数2万社→製品8万種→80万件/月オーダー
設備数 140
通貨工程 5600
生産量 3000万トン / 年

清算業務管理用計算機 Level4
創業間利用計算機 Level3
製鉄所基幹LAN プロセス計算機 Level2
計装DCS LAN ・電気PLC LAN
デジタル制御装置 Level1
- 10us 周期など

プロセス計算機ソフト量
2000年ぐらいで 800万ステップ

実装されるモデルの数が飛躍的に増大
蓄積されるデータの量は飛躍的に増大

鉄鋼製品の特性
引張強度 200 - 1500 MPa
すごい幅が広い

鉄鋼製造プロセスの特長
巨大装置産業
注文に基づく清算が基本
多品種・少ロット清算へ対応可能
多くの工場・プロセスを経由
etc.

鉄鋼製品の品質指標

材質
- 最も重要な品質指標
- 強度
  - 引張強度
  - 降伏点
  - 伸び
- 靭性
  - 吸収エネルギー
  - 遷移温度
- 磁気特性
  - 鉄損
寸法
形状
- 板クラウン
- 平坦度
- 平面形状
表面品質

品質管理業務フロー

お客様から注文
- 要求材質
  - 強度
  - 靭性
品質検討
受注可否判断
製造条件
- 化学成分
- 加熱条件
- 圧延条件
- 冷却条件

製造条件から品質(材質)を精度良く予測する手段が必要

材質予測モデルの概要

冶金プロセスと製造プロセス
金属組織の変化をオンラインで解析するのは非常に困難

局所回帰モデル
要求点に近い事例で回帰分析

材質予測モデルのデータセット約10,000
生産サイクルに合わせる
FIFOで更新

微量金属の強度への寄与
局所回帰モデルによって、偏回帰係数の変化を計算
飽和現象がうまく表現できた

従来手法とその問題点
- 近い事例での検索
- 線形回帰式で材質予測
- 設計負荷が高い
- 精度が悪い

品質設計問題の定式化
2次計画問題を逐次解く
多目的最適化問題

データマイニングツールのビジュアルプログラミングを利用
数理システムの Visual Mining Studio

多変量統計敵プロセス管理

各操業条件の実績値が互いに相関をもって連動することに着目
各操業条件データを連動する方向をもとに整理(主成分分析)し、2つの変数を監視

相関しているはずが、逆相関の結果を検出する
単に元の変数だけ見てるとわからない

T2統計量
製造仕様の変更、実験材投入など
人為的バラつき

Q統計量
センサー異常、機器故障など
突発的バラつき

従来の監視者の業務
管理データ 1000超
データ抽出・編集作業 2時間/工場

MSPCによる解析
基準データ(異常のない通常操業のデータ)
実績・評価用のデータ

それを解析してT2やQ統計量を出す

MSPCにより原因候補を抽出

10年前は懐疑的な人が多かったが、そういう人は10年間で会社辞めてってるので……

Q. どれくらいきれいなデータでやってるのか？(PFI 比戸さん)
A. 欠損データは除くようにしている
このデータはこの範囲にないといけないはずだというテーブルを持っている
3σより外れたものは削除している
試行錯誤の中で導入している

「コロケーション・パーチェスビッグデータの対応分析クラスタリングによる類似地域推薦システム」大槻明(東京工業大学)

Twitterから位置情報(コロケーション情報)その中でも市区町村の情報と「どこで何を買ったか」(パーチェス情報)を取得
これを2部グラフとしてとらえ、対応正を類似尺度としたクラスタリングを行う

クラスタリングの結果生成される類似地域を可視化
未完成

先行研究
計量書誌学とModularity
約3万件のデータマイニング系論文データを可視化したイメージ
計量書誌学: 論文引用の研究
http://ja.wikipedia.org/wiki/%E8%A8%88%E9%87%8F%E6%9B%B8%E8%AA%8C%E5%AD%A6

Modularity Qによるクラスタリング
モジュラリティ: コミュニティ分割時の評価関数
モジュラリティ値が高いときにグループ分割をすれば、
グループ(モジュール)内でのつながりが密な状態で、グループ外とのつながりが疎な状態ができる

Modularity はリンク無制限のネットワークには使うことができるが、2部グラフには使うことができない

Modularity Qの2部グラフへの応用(先行研究)
Barber のQb、村田のQm、etc.

Twitterからのデータ取得
対象期間: クリスマス
2012/12/22 - 25

取得件数: 1,083

使える情報: 731

パーチェス情報
どこで買ったか
@つきなどで位置情報があるものは自動抽出、ないものは手動抽出

何を買ったか
Chasenで係り受け抽出

Uppertail法による階層クラスタリング
→x-means法へ

kmeans をつかて2分割を繰り返すが
BIC(ベイズ情報推定)を使う

ストリーム解析処理再訪〜HPCの観点から〜秋岡明香(明治大学)

研究の目的

ストリーム解析処理の挙動解析とモデル化
- データインテンシブとは根本的に何が違うか
ストリーム解析処理のベンチマーク化

データインテンシブは write once read many
ストリーム解析は write once read once

データインテンシブ
データアクセスの高速化がアプリケーション高速化の鍵！

ストリーム解析処理
データアクセス高速化してもちっともうれしくない
高速化戦略を見直さないといけない

ストリーム解析処理の一班モデル(1)
「流れてくるデータをフェッチする。余す所なくフェッチする」

流れてくるデータ→処理1→スケッチ
処理1: 非常に軽い処理じゃないとダメ
スケッチ: キャッシュのような記憶領域
処理2: スケッチからデータをとって解析する。DBなどに叩き込む
処理3: DBなどから取り出して解析する。

処理1〜スケッチ〜処理2 の高速化が課題
スケッチはデータ依存・処理依存

ストリーム解析処理の一般モデル(2)
データフェッチ + スケッチ read → 処理1 → スケッチ write → スケッチ read → 処理2

n番目のデータを処理するプロセスと同時に、n + 1 番目のデータを処理するプロセスも必要

タスクグラフ
アプリケーションのデータ依存や制御依存、計算コストなどを模式化した有向グラフ
スケジューリングアルゴリズムの評価時など対象アプリケーションとして擬似的に使用

実行時間見積もりに関して
計算対象のデータ量等で実行時間の大きな変動が起こりうる
Min-Summaryのしきい値再計算など
平均値による実行コストの見積もりは意味なくなるかもしれない

too many cores の時代到来？

[招待講演] 製鉄所における大量品質管理データの解析事例と課題 茂森弘靖(JFEスチール)

材質予測モデルの概要

「コロケーション・パーチェスビッグデータの対応分析クラスタリングによる類似地域推薦システム」大槻明(東京工業大学)

ストリーム解析処理再訪〜HPCの観点から〜 秋岡明香(明治大学)

[招待講演] 製鉄所における大量品質管理データの解析事例と課題茂森弘靖(JFEスチール)

ストリーム解析処理再訪〜HPCの観点から〜秋岡明香(明治大学)