(株)シーシーイーでは、様々なソースから公表された情報を収集して「企業データベース」等を製造し、製品やサービスに展開しています。
公開情報を取得して「企業の業務に役立つ高精度デジタルデータ」を作成するには、システムによる一括処理はもちろん、人の手による丁寧な作業が必要です。
通常は表から見えない、データ製造工程におけるノウハウと技術の一部をご紹介します。
電話帳情報、官公庁の公開情報、ウェブサイトなど、さまざまなソースから収集した公開情報を『システム(機械)』と『人による作業』の両面から「検知」「照査」し、「加工・修正」を繰り返してデータの品質を高めています。
アナログデータ(紙媒体)や画像データ、テキストファイル形式のデータ等を、OCRソフトウェアなどを使用してシステムに読み込み、デジタルデータを作成(※)します。
※弊社が製造する電話帳情報、チェーン店舗情報、官公庁の公開情報などの各種データベースは、データそのものはもちろん、企業や行政機関等のシステムへの組み込みや顧客データベースへの情報付加、弊社開発の情報検索システム・サービスなど、さまざまな形で提供しています。
読み込んだデジタルデータは、弊社保有の各種データベースとの照合(マッチング)をおこないます。その結果から、独自の解析処理システムで必要な加工をして、確定データと修正が必要なデータに選別します。
| データの問題点 |
|
加工例 |
|---|---|---|
|
OCRによる誤読 (例)レジデンス8 |
正しい表記に修正 (例)レジデンスB |
|
|
住所の一部が省略されている (例)東京都日本橋蛎殻町1-16-8 |
欠けている部分を付加 (例)東京都中央区日本橋蛎殻町1-16-8 |
|
|
名称にヨミガナがない (例)日本ソフト販売株式会社 |
ヨミガナを付加 (例)ニホンソフトハンバイ(カ) |
解析処理システムから漏れた修正が必要なデータは、オペレーターによる目視確認や手入力、ツールによる加工、などの方法で修正します。
具体的には、システム処理による漏れを独自ツールで置換・修正する作業を繰り返し実施したり、ホームページや各種資料を調査して正確な表記に修正するなど、より詳細な修正作業をおこないます。
名称表記は、情報ソースによって必ずしも同一ではなく、それぞれ固有の傾向や特性が見られ、表記ゆれが発生しています。カーナビゲーションシステムをはじめとする各種アプリケーションにおける検索精度や利便性を向上させるため、弊社では次の例のような加工を施しています。
| データの問題点 |
|
加工・修正 |
|---|---|---|
|
登録名称が長すぎる(電話帳情報) 「〇〇市役所 〇〇教育委員会 〇〇小学校」 |
短く、認識しやすい名称に変更 「〇〇市立〇〇小学校」 |
|
|
店舗情報にチェーン名がなく「〇〇店」のみだった(ウェブ情報) このままでは、カーナビ等で検索したとき何の店かわからない・・・ 「日本橋蛎殻町店」 |
チェーン名を店名の前に追加 「セブンイレブン日本橋蛎殻町店」 |
|
|
「よみがな」の拗音に大文字・小文字が混在している 「シヨクニクシジョウ(食肉市場)」 |
正確な情報に修正 「ショクニクシジョウ(食肉市場)」 |
住所データを整備する基本的な方法は、弊社保有の「住所マスター」と収集したデータを照合し、一致するかどうかをシステム処理により確認することです。不一致の場合は、修正が必要になります。また、ウェブデータには郵便番号がないことも多いため、弊社で補完をおこなっています。
誤字や表記ちがいがあった場合は、長年電話帳をデータ化してきた弊社のノウハウを活かし、次のような方法で修正しています。
| データの問題点 |
|
加工・修正 |
|---|---|---|
|
誤字で町名が不一致 「静岡県浜松市中央区天馬町」 |
独自の修正ツールで修正 「静岡県浜松市中央区伝馬町」 置換パラメーターによる修正処理と検証を繰り返し、住所マスターとの違いを埋めていく。 [置換パラメーターは、正・誤の住所表記パターンを弊社のエンジニアが長年蓄積してきたもの] |
|
|
住所が英語表記
「123 Nihonbashi/Tokyo」 このままでは、地図システムの座標付加が正確にできない・・・ |
「調査」により日本語の住所表記に修正 「東京都中央区日本橋1丁目2-3」 ホームページや各種資料を調査した上で、住所マスターに合わせた日本語表記に統一。 |
「電話帳データベースへ法人番号を付加するケース」を例にあげると、電話帳データベースと法人番号情報とをマッチングさせるためにさまざまな加工・修正のノウハウが必要となります。その背景には、国税庁が公表している法人番号情報は、登記情報や国税庁への届け出情報に基づいており、公表される法人名や所在地が電話帳に掲載されている社名や住所と異なるケースがあるためです。たとえば、以下のようなケースがあげられます。
以上のような状態では、名称や住所の不一致による「付加漏れ」が生じるため、機械的な照合処理に加え、専門の作業者による「調査」が欠かせません。支店・営業所への付加は特に難しい作業であるため、日々紐付け作業をおこなって付加率を高めています。
ちなみに、これらの紐付け結果は弊社の「法人番号一括付加サービス」に搭載し、企業が保有する顧客情報等データベースへの法人番号付加の際にノウハウとして活用しています。
| データの問題点 |
|
加工・修正 |
|---|---|---|
|
システム処理で法人番号が付加できなかった 電話帳の名称が支店名となっており、住所が法人番号情報と全く異なっていた。 |
「調査」により法人番号が判明し付加 ホームページや各種資料を調査した結果、この「支店」に付加する適切な法人番号が判明したため、電話帳データに付加した。 |
できあがったデータベースは「精度検証」をおこない、弊社の規定に定められた基準値が満たされていることを実証しています。
電話帳データの精度検証を例にあげると、統計学に基づき適切な件数を無作為に抽出する「ランダムサンプリング法」を採用しています。具体的には、都道府県単位に2,000件ずつを抽出して電話帳に掲載された元の状態と比較し、名称・カナ・住所等の表記に間違いがないかを目視で確認します。
また、要求された仕様を確実に満たしているか、データ仕様のチェックも実施しています。
弊社では、最新のデータをお届けするために各情報の発刊サイクルを把握し、漏れなく確実にデータベースを生産するようスケジュールを管理しています。
また、生産工程で作業のミス・ムラがないように各種マニュアルを整備、工程内作業チェック表を作成して作業抜けを防止し、進捗状況を管理します。さらに各工程ごとに検査項目を設けて検査を実施するなど、安定した品質で安定した供給ができるよう、徹底した生産管理に努めています。
以上のように、収集した情報をデジタル化する際、画一的な機械による処理だけでは高精度なデータベースを作り上げることはできません。独自のノウハウ・修正ツールを駆使して、正確で使い勝手の良いデータへと磨き上げていく過程があります。
今後も、システム処理と手動による作業をバランスよく使い、さらなるノウハウの更新と充実を図り、高品質で信頼性の高いデータベースを作り続けるよう鋭意努力してまいります。
データベースを製造する際には、お客様のご要望に合わせて様々なカスタマイズにも対応しています。お客様ごとにオペレーションマニュアルを作成し、柔軟な姿勢で課題解決に努めています。カスタマイズの例としては、次のようなケースがあります。
| ご要望例 |
|
カスタマイズ例 |
|---|---|---|
|
データのレイアウトを自社システムに合わせたい |
ファイルレイアウトを絞る(または増やす) 弊社が提供するファイルレイアウト(標準情報)が多すぎる場合は必要項目に絞ったり、逆に必要なオプション項目(例:住所コード、座標、法人番号)を追加したりします。 |
|
| 文字コードを自社システムに合わせたい |
文字コードを変換 弊社では「Shift_JIS」を文字コードに使用していますが、お客様のご使用環境(ウェブ、ホストコンピューターの機種など)に合わせ、文字コードを変換します。 |
弊社が取扱う電話帳データに掲載される、氏名・電話番号・住所データそのものには著作権法で保護対象となる著作物(思想または感情を創作的に表現したもの)には該当しないことを、社団法人著作権情報センター様、弁護士様より確認いたしております。
また、電話帳は政令507号・内閣府・法務省の法令でも「電話帳、電話帳CD-ROM、カーナビゲーション」は除外されており、個人情報保護法からも対象外となっております。
弊社電話帳データは、法律に適合した商品であり、安心してご使用いただけます。
弊社が取り扱う電話帳データは、一般に広く公開されている電話帳に掲載されている氏名・住所・電話番号及び郵便番号の情報のみであり、職業別電話帳、その他個人を識別する情報及び違法に収集した非公開名簿などの情報等は一切取り扱っておりません。
また弊社利用目的は電話帳として各業種で有効活用していただくことであり、現在広く様々な会社、企業、組織に使用され、救急車、消防車、警察車両、金融関係等多くの職種で使用されております。
弊社では電話帳データを法に従って取り扱い、皆様のお役に立つ商品としてご提供させていただいております。
弊社は電話帳データの利用目的を公表した上で、電話帳検索機能を実現する目的で、公開された電話帳情報を使用しております。弊社は、製品において当該電話帳情報を上記機能の実現以外には使用しておりません。
また、掲載電話帳情報の開示・訂正・削除・利用または第三者への提供の拒否を希望される場合にも迅速に対応しております。
弊社は個人情報保護にあたり、JISQ15001に準拠しコンプライアンスプログラムを構築いたしております。
尚、電話帳データは暗号化で保護され提供されています。
弊社の個人情報保護方針は、こちらをご参照ください。
弊社は平成19年1月16日付で一般財団法人日本情報経済社会推進協会(JIPDEC)より、「個人情報の取扱いについて適切な保護措置を講じる体制を整備している事業者」として評価・認定を受け、電話帳関連取扱事業者として初の「プライバシーマーク」を付与されました(株式会社シーシーイー及び日本ソフト販売株式会社同時取得)。
今後もお客様からお預かりする個人情報をはじめとする全ての個人情報について、細心の注意をもってお取扱いをさせていただくとともに、より一層の顧客サービスに努めます。
「Bellemax」は、さまざまな業種や製品で導入されており、身近なところでは、カーナビゲーションに組み込まれ、目的地設定に利用されています。
また、各種システム(GIS/顧客管理/CTI/受注/宅配)と連携することで活用範囲はさらに広がります。
金融機関の審査、営業支援、マーケティング、選挙対策などにも広く導入されています。
必要なときに、必要な情報を、必要なだけ。社内ネットワークを利用して、全国の電話帳情報・地図情報・企業情報・最寄り駅情報などを共有して検索できるシステムです。
Webブラウザさえあれば、すぐに利用できるので、開発の手間や費用をほとんどかけずに導入できます。
アナログデータからOCRによる情報の読み込み、自動処理システムによる加工や人の手による修正など、データベースを作成する一連の流れをご案内いたします。
製造現場の見学をご希望のお客様は(株)シーシーイーまでお気軽にお問い合わせください。
※時期により、実際の作業を見学いただけない場合がございます。
■製造現場見学のお問い合わせは
株式会社シーシーイー
TEL.053-455-1255
受付時間:10:00~12:00 / 13:00~17:00(土日祝を除く)
お気軽にお問い合わせ・ご相談ください。