Вопросы международного использования служб Integration Services

Статья
12/15/2008

Службы Microsoft SQL Server 2005 Integration Services поддерживают синтаксический анализ и обработку многоязыковых данных, настройки языковых стандартов Windows, а также предоставляют специальные режимы сравнения для сортировки и сравнения строковых данных.

Преобразования служб Integration Services для анализа текста и установления нечеткого соответствия могут работать с другими языками хуже, чем с английским. Однако преобразования как анализа текста, так и нечеткого соответствия могут давать полезные результаты при работе со многими языками.

Синтаксический анализ, не зависящий от языковых стандартов

Службы Integration Services включает процедуры синтаксического анализа, не зависящего от языковых стандартов, которые можно использовать для данных в определенных форматах. Эти процедуры синтаксического анализа, совокупно называемые «Быстрый синтаксический анализ», поддерживают только наиболее часто используемые представления даты, не выполняют зависящий от языковых стандартов синтаксический анализ, не распознают специальные символы валюты и не могут преобразовывать шестнадцатеричные и научные представления целых чисел. Быстрый синтаксический анализ может заметно повысить производительность пакетов служб Integration Services, не зависящих от языковых стандартов. Дополнительные сведения см. в разделе Анализ данных.

Настройки языковых стандартов

Службы Integration Services поддерживают настройки языковых стандартов на уровне компонентов объекта, контейнера, задачи и потока данных пакета. Можно также задать языковые стандарты для обработчиков событий.

Пакет может использовать несколько различных языковых стандартов. Например, пакет может использовать языковой стандарт «Русский (Россия)», в то время как одна из задач потока использует языковой стандарт «Немецкий (Германия)», а другая задача — языковой стандарт «Японский (Япония)».

В пакете служб Integration Services могут использоваться любые языковые стандарты, поддерживаемые Windows. Языковой стандарт может быть выбран при создании пакета, и пока пакет не будет перенастроен на использование другого языкового стандарта, он будет одинаково функционировать при развертывании на других компьютерах, которые могут использовать региональные или языковые параметры, отличающиеся от настроек среды разработки.

Но если пакет должен использовать разные языковые стандарты при развертывании на разных серверах, можно создать конфигурации, предоставляющие возможность обновлять языковые стандарты при выполнении пакета. Дополнительные сведения см. в разделах Установка свойств пакета и Конфигурации пакета.

Параметры сравнения

Языковой стандарт предоставляет основные правила сравнения строковых данных в потоке данных. Например, языковой стандарт определяет положение сортировки каждой буквы в алфавите. Однако этих правил может оказаться недостаточно для сравнения, которое необходимо провести, и службы Integration Services поддерживают набор дополнительных параметров сравнения, выходящих за рамки правил сравнения, определяемых языковым стандартом. Например, если проигнорировать несамостоятельные символы, буквы «a» и «a» при сравнении будут считаться одинаковыми. Дополнительные сведения см. в разделе Сравнение строковых данных.

Интеллектуальный анализ текста

Преобразования для интеллектуального анализа текста — «Извлечение терминов» и «Уточняющий запрос термина» — используют собственный словарь. Этот словарь доступен только для английского языка, и результаты использования преобразований интеллектуального анализа текста с другими языками могут быть ограниченными. Microsoft поддерживает использование этих преобразований только при работе с английским языком.

Однако в зависимости от лингвистического сходства между английским и другим языком может оказаться, что преобразование «Извлечение терминов» извлекает неанглийские термины, а преобразование «Уточняющий запрос термина» можно использовать для поиска терминов и вычисления частоты их использования. Чем больше сходство между языками, тем более успешным окажется анализ терминов. Например, использование преобразования «Извлечение терминов» может оказаться эффективным для анализа шведского текста, так как шведский язык использует разделители слов и предложений, схожие с английскими. С другой стороны, вряд ли преобразование «Извлечение терминов» окажется успешным при работе с японским текстом. Дополнительные сведения см. в разделах Преобразование «Извлечение терминов» и Преобразование «Уточняющий запрос термина».

Нечеткое соответствие

Два преобразования, «Нечеткое группирование» и «Нечеткий уточняющий запрос», используют методы нечеткого соответствия для группирования похожих записей в наборе данных или поиска в ссылочной таблице. Оба преобразования производят сопоставление наиболее эффективно, если текстовые данные содержат большое количество длинных слов, разделенных пробелами или другими разделителями. Эти преобразования могут оказаться не столь достоверными в логографических языках, таких как китайский, в которых слова часто состоят всего из нескольких символов и могут не разделяться пробелами. В целом в логографических языках эти преобразования будут менее полезны для поиска ошибок правописания, а также лишних и пропущенных слов. Дополнительные сведения см. в разделах Преобразование «Нечеткое группирование» и Преобразование «Нечеткий уточняющий запрос».

Share via

Вопросы международного использования служб Integration Services

Синтаксический анализ, не зависящий от языковых стандартов

Настройки языковых стандартов

Параметры сравнения

Интеллектуальный анализ текста

Нечеткое соответствие

См. также

Основные понятия

Справка и поддержка

Дополнительные ресурсы