News & Column お知らせ & コラム

社員ブログ

【体験談】大量データの住所名寄せに挑む

皆さん、こんにちは!この記事では私が最近取り組んだ「大量データのデータクレンジングと名寄せ業務」についてお話しします。
この業務の目的は、複数の企業が持つ契約店舗の情報を整理して、同一店舗のデータを一つにまとめることです。同じ店舗でも、微妙に異なるデータとなっていることがあるため、それらを1つにまとめていく作業は、結構大変なんです!
今回はなんと160万件規模のデータ数ということで大掛かりな仕事になりました。

データクレンジングの重要性

最初に、データクレンジングから行っていきます。
各企業が独自の項目や入力方法で入力している店舗情報を、できるだけ同一店舗情報としてまとめていきます。
店舗名の表記がカタカナだったり英語だったり、支店名の有無、住所の表記ゆれなど、細かい違いを整理しないと、同一店舗と認識できません

例えば、A社、B社、C社がそれぞれ持っている新宿区S店の情報が、実は同じ店舗を指しているのに、入力の仕方の違いで3つの異なるデータとして存在してしまうことがあります。
これを1つにまとめるのが、名寄せ(データ結合)であり、今回の私の仕事です!

事前に受領したデータの属性や項目をそれぞれ確認して、次に表記ゆれを統一する手順をシステムで組み上げ、最後は機械的に整理した住所や店舗名を元に結合していきます。
私一人でこの作業を行うこともありますが、大元の結合ルール決めの部分でもありますので、かなり神経を使って作業します。
日数的にはそれほどでもないのですが、PCに張り付いて作業するので眼精疲労が蓄積されていきます。

住所名寄せって?

データクレンジングした後は、機械でデータ結合を行います。
機械(システム)を使用したデータの結合ですので「機械処理(機械結合)」と呼ばれる事もあります。
機械処理では、全体のうち35%程のデータを結合して(今回だと160万件→約105万)削減することができるのですが、クレンジングを行ったうえでも微妙に異なる別の情報が残っていると完全一致でないと判断され、まだまだ結合し切れていない状態です。

そのため、次に人の目で見て判断する、手動処理(手動結合)の「目視検査」と呼ばれる作業を進めていきます。
これが本当に大変で、特に扱うデータ量が多いと、目も体もが疲れてしまいます。(また眼精疲労が!)

名寄せ業務最大の山場である目視検査

この目視検査が名寄せ業務最大の山場となり、全期間のうち6~7割の日数が充てられることが多いと思います。
今回の場合、なんと100万件以上のデータを目視検査するという大仕事でしたので、Excelでいうと100万行ものデータを目で見てチェックする作業になります。
(豆知識:Excelシートの最大行は104万8,576行なんです。ご存知でしたか?)

例えば架空の住所の例ですが、クレンジング後のデータが下記の状態だと機械結合の段階では結合できていません。

①「アジア料理 麻布」    「港区六本木1-2-30麻布ビル6階」
②「アジア料理 麻布 駅前店」「港区六本木1-2-30麻布ビル6階」
③「アジア料理 麻布」    「港区六本木1-2-30,6F」

しかし、目視検査でこのデータをチェックした場合、
①と②に関しては、微妙に店名が異なるが住所が完全に同じ場所を指しているため同一店舗と判断できます。
①と③に関しても、店名は一致しているが住所表記でビル名の記載が無い。けれど階数が同じなので同一店舗と判断できます。
結果として①②③とも同一店舗である、という判断が可能になります。
※どこまでの場合を同一にするかの判断基準は事前に決めておく必要があります。

このようにデータを人の目で見て判断を行っていくことで、微妙な違いで機械結合では結合できなかったデータを更に50%程も(今回だと105万件→約50万)削減することができるのです。

皆さま、力を貸してください!

ここからは人海戦術でとにかく目視検査をする作業者の方々を大量に確保する必要があります。
弊社の場合、経験則から1人が1日でチェックできる量を数百行~数千行で段階的に設定しています。

データの難易度やチェックする人の練達度によって速さは変わってきますので、それを想定しながら全体で1日にチェックできる件数の予測を立てていきます。
この作業がキモとなり、ここを大きく外してしまうと目視検査にかかる日数が想定外に延びることになり、納品が間に合わない可能性が高くなります。

目視検査に使用できる日数と確保できる人員数をにらめっこし、データを余さずチェックできるスケジュールを調整するのですが、今回は100万件以上もの大量データだったため、人員の確保が本当に大変でした。
協力してくださる会社様を探して何社にも連絡を取り、自社の他部署からも多くの人員を動員し、延べ500人近くの人手をお借りして何とか納期に間に合わせる事ができました!皆さまに本当に感謝です!

まとめ

今回の業務は、全体で9日間という決められた日数と時間の中で行う非常に厳しいスケジュールでしたが、何とか無事に終えることができました。
次回は、もう少し余裕を持ったスケジュールで取り組めることを願っています!切に願っています!!
大量データの名寄せ業務は大変ですが、とてもやりがいのある仕事でした。
それでは、また別のお仕事でお会いしましょう!

お知らせ&コラム一覧に戻る